2017-11-03

data tech 2017 に行ってきました　－HTAPめも－

data tech 2017のメモその２です。

今回はHTAPについてのパネルディスカッションのメモです。

ソリューション講演
DB Online公開収録
HTAPを知ってるかい？－DBは分けるべきか、統合するべきか？

DB Online チーフキュレーター　谷川耕一さん
日本アイ・ビー・エム　野間愛一郎さん
日本アイ・ビー・エム　苧阪浩輔さん
ミックさん

●HTAPとは？

OLTPとDWHのハイブリッド。
データを移す手間を省くことで意思決定のスピードを早める手段となりうる。ビジネスアジリティを高めることができる。
ただし、現状はリソースとAPの制限がある。
例えば同じシステムをグローバルで使う場合、USは朝でオンライン処理をしているけど、日本は夜でバッチ処理をしているようなシステムではリソースを食い合う問題がある。
ミックさんは「古くて新しい危険思想」だと感じたそう。

f:id:queencheechee:20171103182035j:plain

f:id:queencheechee:20171103184524j:plain

私はHTAPという言葉を知らなかったので、とりあえずWikipedia。

Hybrid transactional/analytical processing (HTAP) - Wikipedia

OLTPとDWHのハイブリッドと書きましたが、OLTPとDWHの壁を取り払う＝データを蓄積するところ（OLTP)とデータを分析するところ（DWH）の間でデータの移動をなくす、と考えるとわかりやすいです。

SQL Server でいうと、Operational Analytics にあたるものなのかなと思いました。

channel9.msdn.com

●なんでうまくいかないの？

野間さん：

RDBはshared nothingの形がとれない。この形でDBがスケールアウトできればうまくいくんだけど。
IBMのお客様で10～20TBのデータを回している会社は、きちんとパーティションを切って（40個くらい）ノード間で競合しないデザインになっている。

ミックさん：

リソースの問題がクリアできても、そもそもデータがうまく分散するような形（分析できる形）になっていないケースが多い。
HTAPは目指すべき方向としては良いが、本当にやろうとしたらここから手をいれなければならない。

●HTAPはSAPがチャレンジしてるよね、Oracle もin-memoryがんばってるけど、IBMのHTAPはどんなもの？

苧阪さん：

「まだできていないので、おかえりいただかなくて大丈夫です！笑」（前のセッションで神林さんが「できてるとか言ってたら帰っていいですよ」と言ったからｗ）
BLU表という表（インメモリ/カラムストア）１つでOLTPもDWHもやることで速くする。
他社さんのものは、インスタンスは1つだけど、実はインメモリの表と実表の２つを使っていてリソースを2倍使っているものが多い。
これには特別なハードは必要なく、SWで実現する。
Dynamic in memory → すべてをキャッシュに乗せるわけではない。

www-03.ibm.com

●ミックさんからIBMさんへ質問

質問：今までは読み込みの速度を上げる努力はたくさんしてきたと思う（indexだったりin-memoryだったりレプリケーションだったり）。でも最近は更新がスケールしなくて困ることが多い。このあたりは何か考えているか？

今までやってきた努力としては、ログの書き込みバイト数を減らしたり、
shared nothingだと書き込みを分散させるなど。
HTAPは、カラムストアだけど（カラムストアは書き込みが遅いというデメリットがある）これを行ストアと同じ速度くらいまでもっていこうとしている。

●ミックさんから情シス、ユーザ部門の皆さんへメッセージ

先も話したが、HTAPはデータが分散する形、分析する形になっていないと意味をなさない概念。これができるのはSIerではなくて皆さんです。私たちが支援することは可能だけど、皆さんの尽力なくしては成り立たない。頑張ってほしい。

f:id:queencheechee:20171103184727j:plain

私の思うこと

これからのRDBは設計の形を変えて、もっと面白くなりそう！

ただ、ミックさんの言う通り、テーブルのデザインの仕方は従来のセオリーが使えなくなるのかもしれません。（今だって従来のセオリーすらちゃんと使えていないテーブルがわんさかあるしね～）

テーブルの形が変われば、移行のときどうやってデータを入れる？という問題が出てくる。単純にハードが速くなってBulk Insertがめっちゃ速くなっただけじゃ解決できない。そしてもちろんAPも変えなきゃいけない。

書き出してみるとSIerが渋る理由しか出てこないけど、やってみたいですね、HTAP。実用化できるまでいくのが楽しみです。野間さんは「東京オリンピックくらいまでには、、」とおっしゃっていたので、期待です！

あと、神林さんが「かろうじて動いているのがSAP」とおっしゃっていたので、これ読んでみようかなぁ。

SAP HANA入門―Powered by IBM Power Systems

作者: SAP HANA on Power Systems出版チーム
出版社/メーカー: 翔泳社
発売日: 2017/09/30
メディア: オンデマンド (ペーパーバック)
この商品を含むブログを見る

2017-11-03

data tech 2017 に行ってきました　－基調講演めも－

data tech 2017 に行ってきたのでメモを残します。

ブログを始めた思いもろもろは、また別の機会に書こうと思います。

event.shoeisha.jp

基調講演
次を見据え企業が備えておくべきデータ活用基盤とは？
～RDBMS,Hadoopの活用からディープラーニング・AI技術の今後まで～

株式会社セゾン情報システムズ　小野和俊さん
株式会社ノーチラス・テクノロジーズ　神林飛志さん
株式会社オラン　木内里美さん

f:id:queencheechee:20171103162321j:plain

●データ分析基盤ってどう？

神林さん：

MLは所詮過去のデータを学習させるので、過去のデータに基づいている。新しいことは出てこない。
データ分析基盤はいらん！それよりも人の育成の方がよっぽど大事。
データを活用できる人材が圧倒的に不足している。90%以上の企業で足りていない。だから自動発注してくれ、という話になる。

木内さん：

システムのための基盤とデータ分析のための基盤は違う。システムのための基盤を作るのは割と簡単。でも、データ分析のための基盤は企業文化などが絡んでくるため、作るのが難しい。
データは現場のためにある！データ分析基盤を作った上で大切なことは、現場にいる人たちがリアルなデータを見て何かに気づくこと。何かがおかしかったらそれを直すこと。
データを見て気づくことは、何か特別な能力が必要なことではない。普通の人でもできる。

●RDBか、Hadoopか?

神林さん：

Hadoopは10PB以上でないと入れる意味がない。ただし、今のRDBは1TBを超えてくるときつい。この間を埋めるものがないのが現状。例えばYから始まる検索会社は3PBくらいあるので、こうなると選択肢はHadoopしかなくなる。
そこでHTAP。OLTPとDWHのハイブリッド。データを移さないというコンセプト。
HTAPのターゲットはTBクラス。PBは考えていない。
まだできていない。（このあとのセッションでHTAPの話あるけど、できました！とか言ってたら帰っていいです、とおっしゃっていましたｗ）
かろうじて動いているのはSAPのHANA。

●Deep LearningやAIについて

木内さん：

AIは人間が判断する補助としてとての強力。人間が気づかないところを気づくことができる。これがいい事例。IBMのWatsonが最適な抗がん剤を選択した例。
www.itmedia.co.jp

神林さん：

Deep Learningは画像認識など形の変わらないものに強い。形の変わるものは難しいので、人の顔認識や自動運転などはまだまだ。
AIを入れるために今までの法律を変えますとか、枠組みを変えますなどはナンセンス。今までの枠組みを変えずに導入できるのがいい事例。例えばAIで癌の判定をすることなど。検査は医療行為ではないので今までの枠組みを変えずにできる。

●人の育成について

神林さん：

人を育てるというよりも、人が自由に動ける環境を整えることが大切。
木内さんの話に出てきた「データを見て、気づいて、直そうとする」というのは、何かのトレーニングでどうにかなるものではない。それはその人の人間性の問題。
どんなに能力が高くても、上司から「こうでなきゃだめだ！」と言われる環境でその能力が発揮できるわけがない。

●今後について

神林さん：

今の技術はおもしろい！
不揮発性メモリなど、アーキテクチャが分散処理をやる方向に変わってきている。
この数年は先端の技術をwatchして。

今回も神林節炸裂で面白かったです。神林さんのお話はいつもすがすがしく、そしてもっと勉強してがんばろう！と思えます。

長くなってしまったので、HTAPについては、別セッションを聴いてきたので別記事で書きます。

ちぃちぃlog

SQL Server を中心に、データベースのことを書いていこうと思います。

data tech 2017 に行ってきました　－HTAPめも－

ソリューション講演
DB Online公開収録
HTAPを知ってるかい？－DBは分けるべきか、統合するべきか？

●HTAPとは？

●なんでうまくいかないの？

●HTAPはSAPがチャレンジしてるよね、Oracle もin-memoryがんばってるけど、IBMのHTAPはどんなもの？

●ミックさんからIBMさんへ質問

質問：今までは読み込みの速度を上げる努力はたくさんしてきたと思う（indexだったりin-memoryだったりレプリケーションだったり）。でも最近は更新がスケールしなくて困ることが多い。このあたりは何か考えているか？

●ミックさんから情シス、ユーザ部門の皆さんへメッセージ

私の思うこと

data tech 2017 に行ってきました　－基調講演めも－

基調講演
次を見据え企業が備えておくべきデータ活用基盤とは？
～RDBMS,Hadoopの活用からディープラーニング・AI技術の今後まで～

●データ分析基盤ってどう？

●RDBか、Hadoopか?

●Deep LearningやAIについて

●人の育成について

●今後について

ソリューション講演DB Online公開収録HTAPを知ってるかい？－DBは分けるべきか、統合するべきか？

●HTAPとは？

●なんでうまくいかないの？

●HTAPはSAPがチャレンジしてるよね、Oracle もin-memoryがんばってるけど、IBMのHTAPはどんなもの？

●ミックさんからIBMさんへ質問

質問：今までは読み込みの速度を上げる努力はたくさんしてきたと思う（indexだったりin-memoryだったりレプリケーションだったり）。でも最近は更新がスケールしなくて困ることが多い。このあたりは何か考えているか？

●ミックさんから情シス、ユーザ部門の皆さんへメッセージ

私の思うこと

基調講演次を見据え企業が備えておくべきデータ活用基盤とは？～RDBMS,Hadoopの活用からディープラーニング・AI技術の今後まで～

●データ分析基盤ってどう？

●RDBか、Hadoopか?

●Deep LearningやAIについて

●人の育成について

●今後について

ソリューション講演
DB Online公開収録
HTAPを知ってるかい？－DBは分けるべきか、統合するべきか？

基調講演
次を見据え企業が備えておくべきデータ活用基盤とは？
～RDBMS,Hadoopの活用からディープラーニング・AI技術の今後まで～