ChatPaper.aiChatPaper

La génération visuelle débloque un raisonnement de type humain grâce à des modèles de monde multimodaux

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

January 27, 2026
papers.authors: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI

papers.abstract

Les humains construisent des modèles internes du monde et raisonnent en manipulant les concepts au sein de ces modèles. Les récents progrès en IA, notamment le raisonnement par enchaînement de pensées (Chain-of-Thought, CoT), se rapprochent de ces capacités cognitives humaines, les modèles du monde étant supposés intégrés dans les grands modèles de langage. Les systèmes actuels atteignent des performances de niveau expert dans des domaines formels et abstraits comme les mathématiques et la programmation en s'appuyant principalement sur un raisonnement verbal. Cependant, ils restent très en retard sur les humains dans des domaines comme l'intelligence physique et spatiale, qui nécessitent des représentations et des connaissances préalables plus riches. L'émergence de modèles multimodaux unifiés (UMM) capables à la fois de génération verbale et visuelle a donc suscité un intérêt pour un raisonnement plus proche de l'humain, ancré dans des voies multimodales complémentaires, bien que leurs avantages restent flous. Adoptant une perspective de modélisation du monde, cet article présente la première étude fondamentale sur les conditions et les mécanismes par lesquels la génération visuelle améliore le raisonnement. Notre position clé est l'hypothèse de la supériorité visuelle : pour certaines tâches—en particulier celles ancrées dans le monde physique—la génération visuelle sert plus naturellement de modèle du monde, tandis que les modèles du monde purement verbaux rencontrent des limites dues à des contraintes de représentation ou à des connaissances préalables insuffisantes. Théoriquement, nous formalisons la modélisation interne du monde comme une composante centrale du raisonnement CoT et analysons les distinctions entre les différentes formes de modèles du monde. Empiriquement, nous identifions les tâches qui nécessitent un raisonnement CoT visuo-verbal entrelacé, en construisant une nouvelle suite d'évaluation, VisWorld-Eval. Des expériences contrôlées sur un UMM de pointe montrent que le CoT entrelacé surpasse significativement le CoT purement verbal sur les tâches favorisant la modélisation visuelle du monde, mais n'offre aucun avantage clair autrement. Ensemble, ce travail clarifie le potentiel de la modélisation multimodale du monde pour une IA multimodale plus puissante et plus humaine.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.
PDF193January 29, 2026