ChatPaper.aiChatPaper

La Generación Visual Desbloquea el Razonamiento Similar al Humano mediante Modelos Mundiales Multimodales

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

January 27, 2026
Autores: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI

Resumen

Los seres humanos construyen modelos internos del mundo y razonan manipulando los conceptos dentro de estos modelos. Los avances recientes en IA, particularmente el razonamiento de cadena de pensamiento (CoT), aproximan tales capacidades cognitivas humanas, donde se cree que los modelos del mundo están integrados dentro de los grandes modelos de lenguaje. Los sistemas actuales han logrado un rendimiento de nivel experto en dominios formales y abstractos como las matemáticas y la programación, dependiendo predominantemente del razonamiento verbal. Sin embargo, todavía están muy por detrás de los humanos en dominios como la inteligencia física y espacial, que requieren representaciones y conocimiento previo más ricos. La aparición de modelos multimodales unificados (UMMs) capaces de generar tanto contenido verbal como visual ha despertado interés en un razonamiento más similar al humano basado en vías multimodales complementarias, aunque sus beneficios siguen sin estar claros. Desde una perspectiva de modelos del mundo, este artículo presenta el primer estudio fundamentado sobre cuándo y cómo la generación visual beneficia el razonamiento. Nuestra posición clave es la hipótesis de la superioridad visual: para ciertas tareas—particularmente aquellas basadas en el mundo físico—la generación visual sirve más naturalmente como modelo del mundo, mientras que los modelos del mundo puramente verbales encuentran cuellos de botella derivados de limitaciones representacionales o conocimiento previo insuficiente. Teóricamente, formalizamos el modelado interno del mundo como un componente central del razonamiento CoT y analizamos las distinciones entre diferentes formas de modelos del mundo. Empíricamente, identificamos tareas que requieren un razonamiento CoT visual-verbal entrelazado, construyendo una nueva suite de evaluación, VisWorld-Eval. Experimentos controlados en un UMM de vanguardia muestran que el CoT entrelazado supera significativamente al CoT puramente verbal en tareas que favorecen el modelado visual del mundo, pero no ofrece una ventaja clara en otros casos. En conjunto, este trabajo clarifica el potencial del modelado multimodal del mundo para una IA multimodal más poderosa y similar a la humana.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.
PDF193January 29, 2026