data tech 2017 に行ってきました -HTAPめも-
data tech 2017のメモその2です。
今回はHTAPについてのパネルディスカッションのメモです。
ソリューション講演
DB Online公開収録
HTAPを知ってるかい?-DBは分けるべきか、統合するべきか?
DB Online チーフキュレーター 谷川耕一さん
日本アイ・ビー・エム 野間愛一郎さん
日本アイ・ビー・エム 苧阪浩輔さん
ミックさん
●HTAPとは?
- OLTPとDWHのハイブリッド。
- データを移す手間を省くことで意思決定のスピードを早める手段となりうる。ビジネスアジリティを高めることができる。
- ただし、現状はリソースとAPの制限がある。
- 例えば同じシステムをグローバルで使う場合、USは朝でオンライン処理をしているけど、日本は夜でバッチ処理をしているようなシステムではリソースを食い合う問題がある。
- ミックさんは「古くて新しい危険思想」だと感じたそう。
私はHTAPという言葉を知らなかったので、とりあえずWikipedia。
Hybrid transactional/analytical processing (HTAP) - Wikipedia
OLTPとDWHのハイブリッドと書きましたが、OLTPとDWHの壁を取り払う=データを蓄積するところ(OLTP)とデータを分析するところ(DWH)の間でデータの移動をなくす、と考えるとわかりやすいです。
SQL Server でいうと、Operational Analytics にあたるものなのかなと思いました。
●なんでうまくいかないの?
野間さん:
- RDBはshared nothingの形がとれない。この形でDBがスケールアウトできればうまくいくんだけど。
- IBMのお客様で10~20TBのデータを回している会社は、きちんとパーティションを切って(40個くらい)ノード間で競合しないデザインになっている。
ミックさん:
- リソースの問題がクリアできても、そもそもデータがうまく分散するような形(分析できる形)になっていないケースが多い。
- HTAPは目指すべき方向としては良いが、本当にやろうとしたらここから手をいれなければならない。
●HTAPはSAPがチャレンジしてるよね、Oracle もin-memoryがんばってるけど、IBMのHTAPはどんなもの?
苧阪さん:
- 「まだできていないので、おかえりいただかなくて大丈夫です!笑」( 前のセッションで神林さんが「できてるとか言ってたら帰っていいですよ」と言ったからw)
- BLU表という表(インメモリ/カラムストア)1つでOLTPもDWHもやることで速くする。
- 他社さんのものは、インスタンスは1つだけど、実はインメモリの表と実表の2つを使っていてリソースを2倍使っているものが多い。
- これには特別なハードは必要なく、SWで実現する。
- Dynamic in memory → すべてをキャッシュに乗せるわけではない。
●ミックさんからIBMさんへ質問
質問:今までは読み込みの速度を上げる努力はたくさんしてきたと思う(indexだったりin-memoryだったりレプリケーションだったり)。でも最近は更新がスケールしなくて困ることが多い。このあたりは何か考えているか?
今までやってきた努力としては、ログの書き込みバイト数を減らしたり、
shared nothingだと書き込みを分散させるなど。
HTAPは、カラムストアだけど(カラムストアは書き込みが遅いというデメリットがある)これを行ストアと同じ速度くらいまでもっていこうとしている。
●ミックさんから情シス、ユーザ部門の皆さんへメッセージ
先も話したが、HTAPはデータが分散する形、分析する形になっていないと意味をなさない概念。これができるのはSIerではなくて皆さんです。私たちが支援することは可能だけど、皆さんの尽力なくしては成り立たない。頑張ってほしい。
私の思うこと
これからのRDBは設計の形を変えて、もっと面白くなりそう!
ただ、ミックさんの言う通り、テーブルのデザインの仕方は従来のセオリーが使えなくなるのかもしれません。(今だって従来のセオリーすらちゃんと使えていないテーブルがわんさかあるしね~)
テーブルの形が変われば、移行のときどうやってデータを入れる?という問題が出てくる。単純にハードが速くなってBulk Insertがめっちゃ速くなっただけじゃ解決できない。そしてもちろんAPも変えなきゃいけない。
書き出してみるとSIerが渋る理由しか出てこないけど、やってみたいですね、HTAP。実用化できるまでいくのが楽しみです。野間さんは「東京オリンピックくらいまでには、、」とおっしゃっていたので、期待です!
あと、神林さんが「かろうじて動いているのがSAP」とおっしゃっていたので、これ読んでみようかなぁ。
SAP HANA入門―Powered by IBM Power Systems
- 作者: SAP HANA on Power Systems出版チーム
- 出版社/メーカー: 翔泳社
- 発売日: 2017/09/30
- メディア: オンデマンド (ペーパーバック)
- この商品を含むブログを見る
data tech 2017 に行ってきました -基調講演めも-
data tech 2017 に行ってきたのでメモを残します。
ブログを始めた思いもろもろは、また別の機会に書こうと思います。
基調講演
次を見据え企業が備えておくべきデータ活用基盤とは?
~RDBMS,Hadoopの活用からディープラーニング・AI技術の今後まで~
株式会社セゾン情報システムズ 小野和俊さん
株式会社ノーチラス・テクノロジーズ 神林飛志さん
株式会社オラン 木内里美さん
●データ分析基盤ってどう?
神林さん:
- MLは所詮過去のデータを学習させるので、過去のデータに基づいている。新しいことは出てこない。
- データ分析基盤はいらん!それよりも人の育成の方がよっぽど大事。
- データを活用できる人材が圧倒的に不足している。90%以上の企業で足りていない。だから自動発注してくれ、という話になる。
木内さん:
- システムのための基盤とデータ分析のための基盤は違う。システムのための基盤を作るのは割と簡単。でも、データ分析のための基盤は企業文化などが絡んでくるため、作るのが難しい。
- データは現場のためにある!データ分析基盤を作った上で大切なことは、現場にいる人たちがリアルなデータを見て何かに気づくこと。何かがおかしかったらそれを直すこと。
- データを見て気づくことは、何か特別な能力が必要なことではない。普通の人でもできる。
●RDBか、Hadoopか?
神林さん:
- Hadoopは10PB以上でないと入れる意味がない。ただし、今のRDBは1TBを超えてくるときつい。この間を埋めるものがないのが現状。例えばYから始まる検索会社は3PBくらいあるので、こうなると選択肢はHadoopしかなくなる。
- そこでHTAP。OLTPとDWHのハイブリッド。データを移さないというコンセプト。
- HTAPのターゲットはTBクラス。PBは考えていない。
- まだできていない。(このあとのセッションでHTAPの話あるけど、できました!とか言ってたら帰っていいです、とおっしゃっていましたw)
- かろうじて動いているのはSAPのHANA。
●Deep LearningやAIについて
木内さん:
神林さん:
- Deep Learningは画像認識など形の変わらないものに強い。形の変わるものは難しいので、人の顔認識や自動運転などはまだまだ。
- AIを入れるために今までの法律を変えますとか、枠組みを変えますなどはナンセンス。今までの枠組みを変えずに導入できるのがいい事例。例えばAIで癌の判定をすることなど。検査は医療行為ではないので今までの枠組みを変えずにできる。
●人の育成について
神林さん:
- 人を育てるというよりも、人が自由に動ける環境を整えることが大切。
- 木内さんの話に出てきた「データを見て、気づいて、直そうとする」というのは、何かのトレーニングでどうにかなるものではない。それはその人の人間性の問題。
- どんなに能力が高くても、上司から「こうでなきゃだめだ!」と言われる環境でその能力が発揮できるわけがない。
●今後について
神林さん:
- 今の技術はおもしろい!
- 不揮発性メモリなど、アーキテクチャが分散処理をやる方向に変わってきている。
- この数年は先端の技術をwatchして。
今回も神林節炸裂で面白かったです。神林さんのお話はいつもすがすがしく、そしてもっと勉強してがんばろう!と思えます。
長くなってしまったので、HTAPについては、別セッションを聴いてきたので別記事で書きます。