멀티모달 세계 모델을 통한 시각 생성이 인간과 유사한 추론 능력을 구현하다
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
January 27, 2026
저자: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI
초록
인간은 내부 세계 모델을 구축하고 그 모델 내 개념들을 조작하며 추론을 수행합니다. 최근 인공지능, 특히 사고 연쇄(CoT) 추론의 발전은 이러한 인간의 인지 능력을 모방하는데, 여기서 세계 모델은 대규모 언어 모델 내에 내재된 것으로 여겨집니다. 현재 시스템은 주로 언어적 추론에 의존하여 수학 및 프로그래밍과 같은 형식적이고 추상적인 영역에서 전문가 수준의 성능을 달성했습니다. 그러나 더 풍부한 표상과 사전 지식이 필요한 물리적, 공간적 지능과 같은 영역에서는 여전히 인간에 크게 뒤처집니다. 언어 및 시각 생성을 모두 가능하게 하는 통합 다중모달 모델(UMM)의 등장은 이처럼 상호 보완적인 다중모달 경로에 기반한 인간 유사 추론에 대한 관심을 불러일으켰으나, 그 실질적 이점은 아직 명확하지 않습니다. 세계 모델 관점에서 본 논문은 시각 생성이 언제, 어떻게 추론에 이점을 제공하는지에 대한 첫 번째 원칙적 연구를 제시합니다. 우리의 핵심 주장은 시각 우위 가설입니다. 즉, 특히 물리 세계에 기반한 특정 과업의 경우 시각 생성이 세계 모델로서의 역할을 더 자연스럽게 수행하는 반면, 순수 언어적 세계 모델은 표상의 한계나 불충분한 사전 지식에서 비롯된 병목 현상을 겪는다는 것입니다. 이론적으로는 내부 세계 모델링을 CoT 추론의 핵심 구성 요소로 형식화하고 다양한 형태의 세계 모델 간 차이점을 분석합니다. 실증적으로는 시각-언어 간섭 CoT 추론이 필요한 과업들을 규명하고 새로운 평가 도구인 VisWorld-Eval을 구축했습니다. 최첨단 UMM을 이용한 통제 실험 결과, 시각적 세계 모델링이 유리한 과업에서는 간섭 CoT가 순수 언어적 CoT를 크게 능가하는 반면, 그렇지 않은 과업에서는 뚜렷한 이점을 제공하지 않음을 확인했습니다. 종합적으로, 본 연구는 더 강력하고 인간적인 다중모달 AI를 위한 다중모달 세계 모델링의 잠재력을 규명합니다.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.