ChatPaper.aiChatPaper

マルチモーダル世界モデルによる視覚生成が人間のような推論を実現

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

January 27, 2026
著者: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI

要旨

人間は内部世界モデルを構築し、そのモデル内の概念を操作することで推論を行う。近年のAIの進歩、特に連鎖的思考(CoT)推論は、こうした人間の認知能力を近似しており、世界モデルは大規模言語モデル内に埋め込まれていると考えられている。数学やプログラミングといった形式的で抽象的な領域では、現在のシステムが主に言語的推論に依存することで専門家レベルの性能を達成している。しかし、物理的・空間的知能のような、より豊かな表現と事前知識を必要とする領域では、依然として人間に大きく遅れを取っている。そのため、言語生成と視覚生成の両方が可能な統合マルチモーダルモデル(UMM)の出現は、相補的なマルチモーダル経路に基づくより人間らしい推論への関心を呼び起こしているが、その利点は未だ不明確である。本論文は世界モデルの観点から、視覚生成がいつ、どのように推論に利益をもたらすかについて、初めて体系的な研究を行う。我々の核心的な主張は「視覚的優位性仮説」である:物理世界に根ざした特定の課題においては、視覚生成がより自然に世界モデルとして機能するのに対し、純粋に言語的な世界モデルは表現的限界や事前知識の不足に起因するボトルネックに直面する。理論的には、内部世界モデリングをCoT推論の中核要素として形式化し、異なる形態の世界モデル間の差異を分析する。実証的には、視覚的と言語的が交互に行われるCoT推論を必要とする課題を特定し、新しい評価スイートVisWorld-Evalを構築する。最先端のUMMを用いた制御実験により、視覚的世界モデリングが有利な課題では、交互型CoTが純粋に言語的なCoTを大幅に上回るが、それ以外の課題では明確な優位性がないことを示す。総合して、本研究はより強力で人間らしいマルチモーダルAIのためのマルチモーダル世界モデリングの可能性を明らかにする。
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.
PDF193January 29, 2026