Визуальное порождение раскрывает человеко-подобные рассуждения через мультимодальные модели мира
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
January 27, 2026
Авторы: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI
Аннотация
Люди конструируют внутренние ментальные модели мира и осуществляют рассуждения, манипулируя концептами внутри этих моделей. Новейшие достижения в области искусственного интеллекта, в частности, рассуждения по цепочке мыслей (Chain-of-Thought, CoT), аппроксимируют подобные когнитивные способности человека, причем предполагается, что ментальные модели мира встроены в большие языковые модели. Современные системы, опираясь преимущественно на вербальные рассуждения, достигли экспертного уровня в формальных и абстрактных областях, таких как математика и программирование. Однако они все еще значительно отстают от человека в таких областях, как физический и пространственный интеллект, которые требуют более богатых репрезентаций и фоновых знаний. Появление унифицированных мультимодальных моделей (UMM), способных как к вербальной, так и к визуальной генерации, вызвало интерес к более человекообразным рассуждениям, основанным на комплементарных мультимодальных путях, хотя их преимущества остаются неясными. С точки зрения теории ментальных моделей, данная статья представляет первое принципиальное исследование того, когда и как визуальная генерация приносит пользу рассуждениям. Наша ключевая позиция — это гипотеза визуального превосходства: для определенных задач — особенно тех, что основаны на физическом мире — визуальная генерация более естественно служит в качестве ментальной модели мира, тогда как чисто вербальные ментальные модели сталкиваются с ограничениями, возникающими из-за репрезентационных барьеров или недостатка фоновых знаний. Теоретически мы формализуем внутреннее моделирование мира как ключевой компонент рассуждений CoT и анализируем различия между различными формами ментальных моделей. Эмпирически мы идентифицируем задачи, требующие чередования визуально-вербальных рассуждений CoT, и создаем новый оценочный набор данных VisWorld-Eval. Контролируемые эксперименты на передовой UMM показывают, что чередующийся CoT значительно превосходит чисто вербальный CoT в задачах, благоприятствующих визуальному моделированию мира, но не дает явных преимуществ в остальных случаях. В совокупности эта работа проясняет потенциал мультимодального моделирования мира для создания более мощного, человекообразного мультимодального ИИ.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.