知覚、推論、思考、計画:大規模マルチモーダル推論モデルに関するサーベイ
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
May 8, 2025
著者: Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
cs.AI
要旨
推論は知性の核心に位置し、意思決定を行い、結論を導き、領域を超えて一般化する能力を形作る。人工知能において、システムがますますオープンで不確実かつマルチモーダルな環境で動作するにつれ、推論は堅牢で適応的な行動を可能にするために不可欠となっている。大規模マルチモーダル推論モデル(LMRMs)は、テキスト、画像、音声、ビデオなどのモダリティを統合し、複雑な推論能力をサポートし、包括的な知覚、正確な理解、深い推論を目指す有望なパラダイムとして登場した。研究が進むにつれ、マルチモーダル推論はモジュール型で知覚主導のパイプラインから、より一貫したクロスモーダル理解を提供する統一された言語中心のフレームワークへと急速に進化してきた。命令チューニングや強化学習によりモデルの推論が改善された一方で、オムニモーダル一般化、推論の深さ、エージェント的行動において依然として大きな課題が残されている。これらの問題に対処するため、本論文ではマルチモーダル推論研究の包括的かつ構造化された調査を提示し、分野の設計哲学の変化と新たな能力を反映した4段階の発展ロードマップに沿って整理する。まず、タスク固有のモジュールに基づく初期の取り組みをレビューし、表現、アラインメント、融合の各段階に推論が暗黙的に埋め込まれていたことを確認する。次に、マルチモーダルLLMに推論を統合する最近のアプローチを検討し、マルチモーダル連鎖思考(MCoT)やマルチモーダル強化学習などの進展により、より豊かで構造化された推論連鎖が可能になったことを示す。最後に、OpenAI O3およびO4-miniの挑戦的なベンチマークと実験ケースからの実証的知見を基に、複雑な現実世界の環境においてスケーラブルでエージェント的かつ適応的な推論と計画をサポートすることを目指すネイティブ大規模マルチモーダル推論モデル(N-LMRMs)の概念的方向性について議論する。
English
Reasoning lies at the heart of intelligence, shaping the ability to make
decisions, draw conclusions, and generalize across domains. In artificial
intelligence, as systems increasingly operate in open, uncertain, and
multimodal environments, reasoning becomes essential for enabling robust and
adaptive behavior. Large Multimodal Reasoning Models (LMRMs) have emerged as a
promising paradigm, integrating modalities such as text, images, audio, and
video to support complex reasoning capabilities and aiming to achieve
comprehensive perception, precise understanding, and deep reasoning. As
research advances, multimodal reasoning has rapidly evolved from modular,
perception-driven pipelines to unified, language-centric frameworks that offer
more coherent cross-modal understanding. While instruction tuning and
reinforcement learning have improved model reasoning, significant challenges
remain in omni-modal generalization, reasoning depth, and agentic behavior. To
address these issues, we present a comprehensive and structured survey of
multimodal reasoning research, organized around a four-stage developmental
roadmap that reflects the field's shifting design philosophies and emerging
capabilities. First, we review early efforts based on task-specific modules,
where reasoning was implicitly embedded across stages of representation,
alignment, and fusion. Next, we examine recent approaches that unify reasoning
into multimodal LLMs, with advances such as Multimodal Chain-of-Thought (MCoT)
and multimodal reinforcement learning enabling richer and more structured
reasoning chains. Finally, drawing on empirical insights from challenging
benchmarks and experimental cases of OpenAI O3 and O4-mini, we discuss the
conceptual direction of native large multimodal reasoning models (N-LMRMs),
which aim to support scalable, agentic, and adaptive reasoning and planning in
complex, real-world environments.Summary
AI-Generated Summary