騙されるな！スパコン「京」Ｇｒａｐｈ５００で１位のカラクリ

おさらい
ビッグデータでは世界一？
独自開発プロセッサ

おさらい

まずは、これまでの経緯のおさらいとして以下のリンク先を見てもらいたい。

国費の無駄遣いスパコン「京」を再検証する

ビッグデータでは世界一？

京の新しいベンチマークの結果がニュースになった。

九州大学と東京工業大学、理化学研究所、スペインのバルセロナ・スーパーコンピューティング・センター、富士通株式会社による国際共同研究グループは、２０１６年６月に公開された最新のビッグデータ処理（大規模グラフ解析）に関するスーパーコンピュータの国際的な性能ランキングであるＧｒａｐｈ５００において、スーパーコンピュータ「京（けい）」による解析結果で、２０１５年１１月に続き３期連続（通算４期）で第１位を獲得しました。
大規模グラフ解析の性能は、大規模かつ複雑なデータ処理が求められるビッグデータの解析において重要となるもので、今回のランキング結果は、「京」がビッグデータ解析に関する高い能力を有することを実証するものです。
スーパーコンピュータ「京」がＧｒａｐｈ５００で世界第１位を獲得 - 国立研究開発法人科学技術振興機構

後で詳しく検証するが、結果を先に言うと、Ｇｒａｐｈ５００で１位になったことをもって「ビッグデータ解析の分野で『京』が高い能力を持っていることを実証した」ではミスリードが酷すぎる。

エントリーの少なさ

Ｇｒａｐｈ５００はＧｒａｐｈ「５００」と言いながら、その実、2016年11月期は216台しかエントリーしていない。今なら、エントリーすれば確実にランクインできる状態である。なんと、168位にはMacBookAir(1.22761)が、214位にはiPad3(0.0304)がランクインしている(記念エントリーかwww)くらいである。ノートパソコンやタブレットでもランクインできるのではチョロすぎるだろう。

それはともかく、上位にはオークリッジ国立研究所のTitanなどのIntel/AMD勢が全くエントリーしていないのだ。中国と日本を除けば上位勢はIBM(POWER系)コアが独占している。こんなにエントリーが少ない状態で１位を取っても、手放しで褒められる状況ではない。

とはいえ、スペックやＴＯＰ５００の結果から見て、Trinity以下では全く勝負にならないと予測される。しかし、Titanについては予測が難しく、エントリーすれば京よりも上になる可能性がないとは言えない。 IBM(POWER系)勢と同等の結果になるならば、Titanの結果は京よりも下になりそうだが、IBMとIntel/AMDの得手不得手やチューニングの度合いなどにもよろう。であるので、ハッキリとしたことは言えない。

ただし、明確に言えることがひとつある。 TitanらがIntel/AMD勢が全くエントリーしていないランキングで１位になったと自慢するのは、ウサイン・ボルトらの主要選手が参加していない無名の大会で１位になったと自慢するようなものだ。 １位になったと自慢するならば、TitanらがIntel/AMD勢がエントリーしたランキングで１位になってからにすべきだろう。

歴史

Ｇｒａｐｈ５００の結果公表は、2010年11月期からで、当時のエントリーはわずか８台である。そして、エントリー数の少なさも歴史とは無関係ではない。 これだけ歴史が浅くては、確立した性能指標とは言えないだろう。

チューニング

新しいベンチマークはノウハウが蓄積されていないだけに、チューニングの度合いが性能を大きく左右する。では、各スパコンがどれだけチューニングしているのだろうか。

Graph500のランキングは半年に1度公開される。京は2014年6月に初めて首位を獲得したものの、次の2014年11月では2位に後退していた。東京工業大学、理研、ユニバーシティ・カレッジ・ダブリン、九州大学、富士通の共同研究グループがアルゴリズムを最適化し、半年前と比べ2倍近くの性能値を達成した。
Graph500で測る演算性能は、実アプリケーションではWebページのリンク解析、ソーシャルグラフ解析、POS（販売時点管理）データの相関分析など、いわゆるビッグデータ解析に相当するもの。プロセッサの演算性能がものをいうTOP500のベンチマークと異なり、ネットワークやメモリーの性能、ソフトウエアのアルゴリズム最適化が演算性能に大きく効いてくる。演算性能の単位はTEPS（1秒間に探索したグラフの枝数）である。
ビッグデータ解析性能を競うGraph 500で「京」が再び首位 - ITpro

京はかなり頑張ってチューニングしているようだが、では、他はどうか。

Graph500チューニング The Graph 500 List

Ｇｒａｐｈ５００では、比較期間のハード性能向上に注意が必要である。京は殆どコア数が変わっていないにも関わらず、短期間の間に７〜８倍にスコアが伸びており、かなり頑張ってチューニングしたことが読み取れる。一方、ライバル達は、コア数に比例したスコアの向上以外殆ど変化がなく、チューニングの形跡が殆ど見られない。

以上を見ると、新しいベンチマークに対して、京はかなり本気でチューニングしているのに対して、ライバル達は本気を出していないようである。しかし、ベンチマークを必死にチューニングしても、実使用のプログラムのチューニングをしていなければ、実効性能には反映されない。逆に、実使用のプログラムのチューニングをしっかりしていれば、ベンチマークを疎かにしても、実効性能は高くなる。そして、ライバル達が、実使用のプログラムのチューニングに手を抜いているとは考えにくい。ベンチマークのチューニングが実使用のプログラムのチューニングに無関係とは言わないが、イコールでもない。 よって、現状では、Ｇｒａｐｈ５００の結果は実効性能とは必ずしも比例していないと推定できる。

ライバル達が新しいベンチマークにあまり力を入れない理由も説明は十分に可能である。

納入先に積極的に働きかけるほどの動機が見出しにくい
- 費用対効果が乏しい
  - 本格的チューニングにかかる手間暇が大きい
  - 確立した指標でなければセールスポイントにはならない
  - そこまで必死にならなくてもちゃんと売れてるし…
- 納品済の製品のベンチマークに時間をかけることに納入先の理解が得られにくい
  - 製造元は性能を大々的にアピールしたい
  - 納入先は性能アピールに興味はなく、ベンチマークの間の利用停止の方が問題
  - ただし、京の納入先の理研は性能アピールに積極的

ライバル達が手を抜いているランキングで１位になったと自慢するのは、主要選手が流して走っている予選のタイムで１位になったと自慢するようなものだ。 １位になったと自慢するならば、主要選手が本気で走る決勝で１位になってからにすべきだろう。

中国勢の不気味さ

新しいベンチマークの結果として、重要なことを示唆しているのは、京の結果ではなく、中国スパコンの結果である。

2013年6月期にＴＯＰ５００で首位となった天河二号は、秋葉原で売っているパーツを大量に組み合わせただけで、プロセッサ性能以外の技術がまるでないと揶揄されている。 2016年6月期にＴＯＰ５００で首位となった神威・太湖之光は、演算性能以外の全ての性能を犠牲にした国産プロセッサで作られたために実用性ゼロと揶揄されている。ところが、それら中国スパコンが、Ｇｒａｐｈ５００では意外に検討しているのである。

2016年6月期のＧｒａｐｈ５００では、１位の京の38621.4GTEPSに対し、神威・太湖之光は２位で23755.7GTEPSを示し、天河二号は７位で2061.48GTEPSを示している。 実用性ゼロと揶揄された中国スパコンが、最近のスパコンの実効性能に適したとされるベンチマークで好成績となっている。 これは、演算性能以外の全てを犠牲にしても、コア数を極端に増やせば、足りない分は挽回可能であることを示しているのではないか。 であれば、実効性能を第一優先とする場合は、演算性能以外の性能は追求せずに演算性能とコア数のみを追求したほうが良いことになる。 もちろん、これら中国スパコンのスコアが正確であればという条件付きの話ではあるが…

牧野淳一郎氏も2016年6月23日の日誌で中国スパコンの脅威について書いている。

ベンチマークまとめ

欧米では、割と気楽に参加、あるいは、参加を見送っているのに対して、日本だけが必死になって参加しているように見える。例えるなら、ウサイン・ボルトらの主要選手が参加していない無名の大会の予選でほとんどの選手が流して走っている予選において、日本の選手だけが必死に走って１位だと騒いでいるような感じである。 Graph 500は、エントリーが少なかったり、チューニングが甘かったり、歴史も浅かったりで、確立された指標とは言い難い。 現時点では、スパコンの性能比較の指標として使うのは、時期尚早であろう。 その辺りを説明しないで結果だけ見て１位だと大騒ぎするのは詐欺に等しい。

コストパフォーマンス

米国製品が１〜２億ドルで発注されているのに対して、京は開発等に１０００億円以上もかけたスパコンである。 京のスコアは米国製品の２倍にも満たない。 つまり、京はコストパフォーマンスが米国製品より大きく劣る。 実際の使われ方等を考慮すれば、京の１０分の１程度の性能のスパコンを１００台作ったほうがマシであろう。

ＨＰＣＧ

ＨＰＣＧで１位となったことが無意味であることも以下のリンク先にまとめた。

騙されるな！スパコン「京」ＨＰＣＧで１位のカラクリ

補足

世界のトップ選手の半分が参加し、かつ、他の選手が流して走っている予選で１位のタイムを記録したとしたら、それはそれで凄いことである。並の人間なら、流して走っているだけの世界のトップ選手にすら到底かなわない。だから、予選で１位であっても、普通の人から見れば、相当に凄いことである。トップ選手が本気を出していなかったからと言って、その凄さは否定されるものではない。もちろん、それは世界のトップ選手の仲間入りをしたという意味の「凄い」ではない。

そういう意味であることを説明したうえで１位を讃えるなら、それは悪いことではないだろう。しかし、その説明をせずに、順位だけ知らせて「ビッグデータ解析の分野で『京』が高い能力を持っていることを実証した」では詐欺に近い。

独自開発プロセッサ

莫大な国家予算を投入しての独自プロセッサ開発が壮大な無駄遣いであったことは以下のリンク先にまとめた。

国費の無駄遣いスパコン「京」を再検証する

このページの参照元
社会富岳１位はすごくないポスト「京」＝フラッグシップ2020の無駄を検証する国費の無駄遣いスパコン「京」を再検証する騙されるな！スパコン「京」ＨＰＣＧで１位のカラクリ無知・無理解に基づくスパコン「京」擁護論激甘の「特定高速電子計算機施設(スパコン京)中間検証報告」

騙されるな！スパコン「京」Ｇｒａｐｈ５００で１位のカラクリ

おさらい

ビッグデータでは世界一？

エントリーの少なさ

歴史

チューニング

中国勢の不気味さ

ベンチマークまとめ

コストパフォーマンス

ＨＰＣＧ

補足

独自開発プロセッサ

総合案内

情報発信

法律

政策

政府財政

軍事

経済

外交

中立的ＴＰＰ論

外部リンク