
2012年11月9日、アマゾンデータサービスジャパン目黒オフィスでAWS ビッグデータ活用事例セミナーが開催されました。
セミナーの要点をレポートします。
AWSの代表的ビッグデータサービスである、Hadoop管理サービスElasticMapReduce(EMR)、EMR上で稼働するHBASE、NoSQL型サービスDynamoDBなどについて活用事例を含めてご紹介します。
また、AWSを使ったCasandraやMongoDBと言ったビッグデータを扱うための人気のNoSQL系DBのインプリメンテーション事例についても詳細をご説明します。
Amazon Elastic MapReduce(Amazon EMR)の概要
Amazon EMRは、分散処理技術であるMapReduceを実装したHadoopフレームワークを、Amazonのインフラ上で稼動させるサービスです。
Hadoopの計算中にノードの追加が可能
実行中のバッチ処理の進行状況にあわせて、柔軟に性能や機能を向上させられる。
ジョブの大きさに合わせてクラスタサイズを適切に調整する事でコストを最適化できる。
ディストリビューションの選択が可能
Apache Hadoop、MapR
拡張ツールのサポート
Hive, Pig, HBaseをサポート
Amazon EMRのデータストアとして、AWSの様々なデータストアを利用する事が可能
Amazon S3, Amazon DynamoDBなどが使える。
Amazon DynamoDBはスループットの設定が自由にできるため、大量のデータを高速に出し入れするときに利用すると良いとのこと。(50万リクエスト/sec 以上のパフォーマンスがあり、TVキャンペーンで使った事例がある。)
Public Data Setsにより計算用サンプルデータの提供
ヒト遺伝子や、米国国勢調査などの情報を使う事ができる。
AWSサービスに計算用データをアップロードするには様々な方法がある
インターネット経由
AWS Direct Connect(専用線サービス)
AWS Import/Export(物理HDDをAmazonに送って、Amazon S3データを転送してくれるサービス 但し東京ではサポートしていないため、一番近いシンガポールを利用するのが良いでしょうとのこと)
Amazon VPCにVPNを接続
NetflixでAWSを使った事例

Cassandra Performance and Scalability on AWS
NetflixはもっともApache CassandraをAmazon EC2上で使っているユーザだそうです。
・おもに北米で、DVD郵送レンタルサービスとビデオストリーミングサービスを提供している。
・ピークタイムには、北米インターネットトラフィックの30%を使う。
参考)Netflix accounts for 30% of U.S. web traffic(link http://www.cbsnews.com/2100-205_162-20063659.html)
・2500万人以上のビデオストリーミング会員を持つ。
・500億以上のイベントデータを持つ。
NetflixはどのようにAWSを使っているか
・Amazon EMR計算用のデータストアはAmazon S3を使っている。
・8テラバイト/日のイベントデータとApache CassandraのバックアップデータをAmazon S3にアップロードしている。
・合計1ペタバイト以上のデータをAmazon S3に保存している。
・Apache Cassandra
以前は、データストアとしてOracleを使っていたが、性能の限界に達したため、書き込み処理がスケールするミドルウェアとしてApache Cassandraを選んだ。
Apache Cassandraのクラスタをマルチリージョンで利用し、可用性を高めている。










