A Geração Visual Desbloqueia o Raciocínio semelhante ao Humano por meio de Modelos de Mundo Multimodais
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
January 27, 2026
Autores: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI
Resumo
Os seres humanos constroem modelos internos do mundo e raciocinam manipulando os conceitos dentro desses modelos. Avanços recentes na IA, particularmente o raciocínio de cadeia de pensamento (CoT), aproximam-se de tais capacidades cognitivas humanas, acredita-se que os modelos do mundo estejam incorporados dentro de grandes modelos de linguagem. Desempenhos de nível especialista em domínios formais e abstratos, como matemática e programação, foram alcançados pelos sistemas atuais, dependendo predominantemente do raciocínio verbal. No entanto, eles ainda estão muito atrás dos humanos em domínios como a inteligência física e espacial, que exigem representações e conhecimento prévio mais ricos. O surgimento de modelos multimodais unificados (UMMs) capazes de geração verbal e visual, portanto, despertou interesse em um raciocínio mais semelhante ao humano, fundamentado em vias multimodais complementares, embora seus benefícios permaneçam pouco claros. A partir de uma perspectiva de modelo do mundo, este artigo apresenta o primeiro estudo fundamentado sobre quando e como a geração visual beneficia o raciocínio. Nossa posição central é a hipótese da superioridade visual: para certas tarefas – particularmente aquelas fundamentadas no mundo físico – a geração visual serve mais naturalmente como modelos do mundo, enquanto os modelos do mundo puramente verbais encontram gargalos decorrentes de limitações representacionais ou conhecimento prévio insuficiente. Teoricamente, formalizamos a modelagem interna do mundo como um componente central do raciocínio CoT e analisamos as distinções entre diferentes formas de modelos do mundo. Empiricamente, identificamos tarefas que exigem raciocínio CoT visual-verbal intercalado, construindo um novo conjunto de avaliação, o VisWorld-Eval. Experimentos controlados em um UMM state-of-the-art mostram que o CoT intercalado supera significativamente o CoT puramente verbal em tarefas que favorecem a modelagem visual do mundo, mas não oferece vantagem clara em outros casos. Em conjunto, este trabalho esclarece o potencial da modelagem multimodal do mundo para uma IA multimodal mais poderosa e semelhante à humana.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.