マルチモーダル大規模言語モデル(MLLMs)における汎用的な推論能力の開発は依然として課題である。認知科学の文献が示唆するように、ゲームプレイは転移可能な認知スキルを促進することを動機として、我々は新しいポストトレーニングパラダイム、Visual Game Learning(ViGaL)を提案する。ここでは、MLLMsがアーケード風ゲームをプレイすることで、マルチモーダル推論のドメイン外汎化能力を発展させる。具体的には、7BパラメータのMLLMを、Snakeのような単純なアーケード風ゲームで強化学習(RL)を用いてポストトレーニングすることで、MathVistaのようなマルチモーダル数学ベンチマークや、MMMUのような多分野問題における下流タスクの性能が大幅に向上することを示す。この際、RL中に解答例、方程式、図表を見ることはなく、転移可能な推論スキルの獲得を示唆している。注目すべきは、我々のモデルが、マルチモーダル推論データに特化した専門モデルをマルチモーダル推論ベンチマークで上回りながら、ベースモデルの一般的な視覚ベンチマークにおける性能を維持することである。これは、専門モデルがしばしば達成できない課題である。我々の研究結果は、新しいポストトレーニングパラダイムを示唆している:合成的でルールベースのゲームは、MLLMsにおける汎用的なマルチモーダル推論能力を引き出すための制御可能かつスケーラブルな事前タスクとして機能し得る。
光学化学構造認識(OCSR)は、分子画像を機械可読形式に変換することで化学知識のデジタル化において重要な役割を果たします。最近の視覚言語モデル(VLM)はこのタスクにおいて潜在能力を示していますが、その画像キャプショニングアプローチは複雑な分子構造や一貫性のないアノテーションに苦戦することがあります。これらの課題を克服するため、我々はGTR-Mol-VLMという新しいフレームワークを提案します。このフレームワークには2つの主要な革新が含まれています:(1) グラフトラバーサルを視覚的思考連鎖として模倣し、逐次的な原子-結合予測を通じて分子グラフを解析するメカニズム、(2) 画像中の省略構造とその拡張アノテーションの不整合に対処する「見たものを忠実に認識する」というデータ中心の原則です。モデル開発を支援するため、我々はGTR-CoT-1.3Mという大規模な指示チューニングデータセットを構築し、注意深く修正されたアノテーションを提供しました。また、OCSRにおけるグラフ解析精度の詳細な評価を目的とした最初のベンチマークであるMolRec-Benchを導入しました。包括的な実験により、GTR-Mol-VLMは専門家モデル、化学領域のVLM、商用の汎用VLMと比較して優れた結果を達成することが示されました。特に、官能基の省略を含む分子画像のシナリオにおいて、GTR-Mol-VLMは2番目に優れたベースラインをSMILESベースおよびグラフベースのメトリクスで約14パーセンテージポイント上回りました。本研究がOCSR技術を現実世界のニーズにより効果的に満たすことを推進し、ケモインフォマティクスやAI for Scienceの分野を前進させることを期待しています。GTR-CoTはhttps://github.com/opendatalab/GTR-CoTで公開予定です。
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52
最近のLLM(大規模言語モデル)の進歩により、さまざまなタスクにおいて自律エージェントとしての利用が可能となったが、一貫した長期戦略の策定と遵守には依然として課題を抱えている。本論文では、戦略的計画能力を明示的に試す環境に置かれたLLMエージェントが、自己改善できるかどうかを調査する。オープンソースのCatanatronフレームワークを通じてアクセス可能なボードゲーム「Settlers of Catan」を使用し、シンプルなゲームプレイエージェントから、自身のプロンプトやプレイヤーエージェントのコードを自律的に書き換えることができるシステムまで、LLMベースのエージェントの進化をベンチマークする。本論文では、専門的な役割(Analyzer、Researcher、Coder、Player)が協力してゲームプレイを分析し、新たな戦略を研究し、エージェントのロジックやプロンプトを修正するマルチエージェントアーキテクチャを導入する。手動で作成されたエージェントとLLMによって完全に進化したエージェントを比較することで、これらのシステムが失敗を診断し、時間とともに適応する能力を評価する。結果として、特にClaude 3.7やGPT-4oのようなモデルを活用した自己進化型エージェントは、静的ベースラインを上回り、戦略を自律的に採用し、ゲームプレイエージェントにサンプル行動を引き継ぎ、複数のイテレーションにわたって適応的な推論を示すことが明らかとなった。