OSC2017
2017-09-09 (土)   11時00分

SQL on Hadoopのホントのところ 〜Impala v.s. Hive on Tez v.s. Drill〜

このエントリーをはてなブックマークに追加

講師:木下 翔伍(株式会社日立製作所 OSSソリューションセンタ)
担当:株式会社日立製作所
レベル:入門編
対象者:ビッグデータの利活用を考えている人
前提知識:Hadoop(HDFS, YARN, MapReduce)の基本的なアーキテクチャを理解している人

データレイクに格納されたデータをSQLを用いて様々な角度からアドホックに分析するニーズが高まっています。
分析者にとっては高速に分析できることが重要になりますが、高速な分析を実現するツールとして、
ビッグデータ分散処理基盤として知られるHadoop上で動作するクエリエンジン(SQL on Hadoop)
が注目されています。

しかし、SQL on Hadoopには同様の機能を持つOSSが複数あり、どれを選ぶか悩ましいところです。
今回はその中から代表的ものとしてImpala, Hive + Tez, Drillをピックアップし、TPC-DSベンチマークを
用いて様々な角度から性能比較検証を実施しました。その結果から、どのような処理が得意/苦手なのか等、
それぞれの特性を探って行きます。

【カテゴリ】ビッグデータ/運用管理





www.ospn.jp