知覚、推論、思考、計画:大規模マルチモーダル推論モデルに関するサーベイPerception, Reason, Think, and Plan: A Survey on Large Multimodal
Reasoning Models
推論は知性の核心に位置し、意思決定を行い、結論を導き、領域を超えて一般化する能力を形作る。人工知能において、システムがますますオープンで不確実かつマルチモーダルな環境で動作するにつれ、推論は堅牢で適応的な行動を可能にするために不可欠となっている。大規模マルチモーダル推論モデル(LMRMs)は、テキスト、画像、音声、ビデオなどのモダリティを統合し、複雑な推論能力をサポートし、包括的な知覚、正確な理解、深い推論を目指す有望なパラダイムとして登場した。研究が進むにつれ、マルチモーダル推論はモジュール型で知覚主導のパイプラインから、より一貫したクロスモーダル理解を提供する統一された言語中心のフレームワークへと急速に進化してきた。命令チューニングや強化学習によりモデルの推論が改善された一方で、オムニモーダル一般化、推論の深さ、エージェント的行動において依然として大きな課題が残されている。これらの問題に対処するため、本論文ではマルチモーダル推論研究の包括的かつ構造化された調査を提示し、分野の設計哲学の変化と新たな能力を反映した4段階の発展ロードマップに沿って整理する。まず、タスク固有のモジュールに基づく初期の取り組みをレビューし、表現、アラインメント、融合の各段階に推論が暗黙的に埋め込まれていたことを確認する。次に、マルチモーダルLLMに推論を統合する最近のアプローチを検討し、マルチモーダル連鎖思考(MCoT)やマルチモーダル強化学習などの進展により、より豊かで構造化された推論連鎖が可能になったことを示す。最後に、OpenAI O3およびO4-miniの挑戦的なベンチマークと実験ケースからの実証的知見を基に、複雑な現実世界の環境においてスケーラブルでエージェント的かつ適応的な推論と計画をサポートすることを目指すネイティブ大規模マルチモーダル推論モデル(N-LMRMs)の概念的方向性について議論する。