Visuele Generatie Ontgrendelt Mensachtig Redeneren via Multimodale Wereldmodellen

Samenvatting

Mensen construeren interne wereldmodellen en redeneren door de concepten binnen deze modellen te manipuleren. Recente vooruitgang in AI, met name chain-of-thought (CoT) redeneren, benadert dergelijke menselijke cognitieve vermogens, waarbij wordt aangenomen dat wereldmodellen zijn ingebed in grote taalmodellen. Expertniveau-prestaties in formele en abstracte domeinen zoals wiskunde en programmeren zijn bereikt in huidige systemen door voornamelijk te vertrouwen op verbaal redeneren. Echter, ze blijven ver achter bij mensen in domeinen zoals fysieke en ruimtelijke intelligentie, die rijkere representaties en voorkennis vereisen. De opkomst van verenigde multimodale modellen (UMMs) die zowel verbale als visuele generatie kunnen uitvoeren, heeft daarom interesse gewekt in meer mensachtig redeneren gebaseerd op complementaire multimodale paden, hoewel hun voordelen onduidelijk blijven. Vanuit een wereldmodelperspectief presenteert dit artikel de eerste principekwestie-studie naar wanneer en hoe visuele generatie het redeneren ten goede komt. Onze centrale stelling is de visuele superioriteitshypothese: voor bepaalde taken—met name die verankerd in de fysieke wereld—dient visuele generatie natuurlijker als wereldmodel, terwijl puur verbale wereldmodellen tegen bottlenecks aanlopen die voortkomen uit representatielimitaties of onvoldoende voorkennis. Theoretisch formaliseren we intern wereldmodelleren als een kerncomponent van CoT-redeneren en analyseren we onderscheiden tussen verschillende vormen van wereldmodellen. Empirisch identificeren we taken die interleaved visueel-verbaal CoT-redeneren vereisen, en construeren we een nieuwe evaluatiesuite, VisWorld-Eval. Gecontroleerde experimenten met een state-of-the-art UMM tonen aan dat interleaved CoT significant beter presteert dan puur verbaal CoT bij taken die visueel wereldmodelleren begunstigen, maar anderszins geen duidelijk voordeel biedt. Samen verduidelijkt dit werk het potentieel van multimodaal wereldmodelleren voor krachtigere, mensachtige multimodale AI.

English

Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.

Visuele Generatie Ontgrendelt Mensachtig Redeneren via Multimodale Wereldmodellen

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Samenvatting

Support