DeepMind、ルールを教えなくても「パックマン」などでハイスコアを出せるAIシステム「MuZero」 - ITmedia

　米Alphabet傘下のDeepMindは12月23日（現地時間）、ルールを教えなくてもゲームでハイスコアを出せる新しいAIシステム「MuZero」を発表した。

　同社はこれまで、「AlphaGo」、「AlphaGo Zero」、「AlphaZero」とAIシステムを進化させてきた。AlphaGoはゲームのルールを習得し、さらに過去の人間による囲碁の膨大な対戦データで学習することで能力を上げる必要があった。AlphaGo Zeroはルールを教えるだけで囲碁に強くなり、AlphaZeroは囲碁だけでなく、将棋とチェスもルールを教えるだけで強くなった。

MuZeroまでの道のり

　MuZeroは、AlphaZeroの先読みツリー検索機能と、環境の中で最も重要な側面のみに焦点を当てて学習するモデルを組み合わせることで、人間の「計画する能力」を目指す強化学習アルゴリズムを大きく飛躍させたという。

　MuZeroは、環境のダイナミクスのモデルを学習した結果を使って計画を立てることで複雑な問題に対処するのを目的とする、モデルベースのシステム。従来のモデルベースシステムは環境のあらゆる側面をモデル化しようとするもので、これでは例えばAtariの「パックマン」のような複雑な環境に対処するのは難しかったが、MuZeroは環境全体のモデル化ではなく、意思決定プロセスにとって重要な側面だけをモデル化する。

　例えば、人間は外出時に傘を持っていくかどうかを空模様から簡単に判断する。MuZeroは傘を持っていくかどうか判断するためにすべての要素をモデル化するのではなく、空中の水滴のパターンはモデル化せず、傘とは何かをモデル化すると、DeepMindは説明している。

　具体的には、計画に不可欠な環境の3つの要素、「値」「ポリシー」「報酬」をモデル化する。これらの要素をディープニューラルネットワークで学習し、特定のアクションを実行すると何か起きるかを理解し、対策を計画する。

　このアプローチでは、環境から新しいデータを収集しなくても、学習したモデルを繰り返し使って計画を改善していくことができる。

　例えばAtariゲームのテストでは、過去のエピソードで実行すべきだったアクションの再計画の時間の90％を、学習済みモデルに費やした。

　パックマンでは、わずか6〜7通りのアクションのシミュレーションしか検討できないように制限しても、良好なパフォーマンスを見せた（下右のグラフ）。これは、MuZeroがすべての可能性を検索しなくても、アクションと状況を一般化できることを示唆しているという。

　MuZeroは、囲碁、将棋、チェスではAlphaZeroと同程度の成果を上げた。

　DeepMindは、MuZeroの能力は、強化学習と汎用アルゴリズムの追求における大きな進歩だとし、この能力をロボット工学、産業システムその他の困難な課題解決のために活用できると語った。

　同社は既に、AIシステム「AlphaFold」でタンパク質構造予測に取り組んでいる。

　DeepMindの主任研究科学者、デビッド・シルバー博士は英BBCに対し、MuZeroを新たな動画圧縮技術の開発に応用していると語った。「ネット上のデータトラフィックの多くを占める動画を効果的に圧縮できれば、大幅なコスト削減が可能だ」と同氏は語り、来年（YouTubeを傘下に持つ）Googleが具体的な発表をすると予告した。