ChatPaper.aiChatPaper

Visuelle Erzeugung erschließt menschenähnliches Denken durch multimodale Weltmodelle

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

January 27, 2026
papers.authors: Jialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long
cs.AI

papers.abstract

Menschen konstruieren interne Weltmodelle und schließen durch die Manipulation der Konzepte innerhalb dieser Modelle. Jüngste Fortschritte in der KI, insbesondere das Ketten-Denken (Chain-of-Thought, CoT), nähern sich solchen menschlichen kognitiven Fähigkeiten an, wobei angenommen wird, dass Weltmodelle in großen Sprachmodellen eingebettet sind. In aktuellen Systemen wurde Expertenniveau in formalen und abstrakten Domänen wie Mathematik und Programmierung hauptsächlich durch verbales Schließen erreicht. Allerdings liegen sie in Domänen wie der physikalischen und räumlichen Intelligenz, die reichere Repräsentationen und Vorwissen erfordern, noch weit hinter Menschen zurück. Die Entstehung einheitlicher multimodaler Modelle (Unified Multimodal Models, UMMs), die sowohl verbale als auch visuelle Generierung beherrschen, hat daher das Interesse an menschenähnlicherem Schließen geweckt, das auf komplementären multimodalen Pfaden basiert, obwohl ihr Nutzen unklar bleibt. Aus der Perspektive von Weltmodellen präsentiert diese Arbeit die erste prinzipielle Untersuchung, wann und wie visuelle Generierung das Schließen begünstigt. Unsere zentrale These ist die Hypothese der visuellen Überlegenheit: Für bestimmte Aufgaben – insbesondere solche, die in der physischen Welt verankert sind – dient die visuelle Generierung natürlicher als Weltmodell, während rein verbale Weltmodelle auf durch Repräsentationslimitationen oder unzureichendes Vorwissen verursachte Engpässe stoßen. Theoretisch formalisieren wir die interne Weltmodellierung als Kernkomponente des CoT-Schließens und analysieren Unterschiede zwischen verschiedenen Formen von Weltmodellen. Empirisch identifizieren wir Aufgaben, die verschachteltes visuell-verbales CoT-Schließen erfordern, und konstruieren eine neue Evaluierungssuite, VisWorld-Eval. Kontrollierte Experimente mit einem modernsten UMM zeigen, dass verschachteltes CoT bei Aufgaben, die visuelle Weltmodellierung begünstigen, rein verbalem CoT signifikant überlegen ist, aber ansonsten keinen klaren Vorteil bietet. Zusammengenommen klärt diese Arbeit das Potenzial multimodaler Weltmodellierung für leistungsfähigere, menschenähnlichere multimodale KI auf.
English
Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.
PDF193January 29, 2026