La Generazione Visiva Sblocca il Ragionamento Umano attraverso Modelli Multimodali del Mondo

Abstract

Gli esseri umani costruiscono modelli interni del mondo e ragionano manipolando i concetti all'interno di questi modelli. I recenti progressi nell'IA, in particolare il ragionamento a catena di pensiero (CoT), approssimano tali abilità cognitive umane, dove si ritiene che i modelli del mondo siano incorporati all'interno di grandi modelli linguistici. Prestazioni di livello esperto in domini formali e astratti come la matematica e la programmazione sono state raggiunte dai sistemi attuali affidandosi prevalentemente al ragionamento verbale. Tuttavia, questi sistemi sono ancora molto inferiori agli esseri umani in domini come l'intelligenza fisica e spaziale, che richiedono rappresentazioni e conoscenze pregresse più ricche. L'emergere di modelli multimodali unificati (UMM) capaci di generazione sia verbale che visiva ha quindi suscitato interesse verso un ragionamento più simile a quello umano, basato su percorsi multimodali complementari, sebbene i loro benefici rimangano poco chiari. Da una prospettiva di modellazione del mondo, questo articolo presenta il primo studio sistematico su quando e come la generazione visiva avvantaggia il ragionamento. La nostra posizione chiave è l'ipotesi della superiorità visiva: per determinati compiti – in particolare quelli radicati nel mondo fisico – la generazione visiva serve più naturalmente come modello del mondo, mentre i modelli del mondo puramente verbali incontrano colli di bottiglia derivanti da limitazioni rappresentative o da conoscenze pregresse insufficienti. Teoricamente, formalizziamo la modellazione interna del mondo come componente centrale del ragionamento CoT e analizziamo le distinzioni tra le diverse forme di modelli del mondo. Empiricamente, identifichiamo compiti che necessitano di un ragionamento CoT visivo-verbale intervallato, costruendo una nuova suite di valutazione, VisWorld-Eval. Esperimenti controllati su un UMM all'avanguardia mostrano che il CoT intervallato supera significativamente il CoT puramente verbale nei compiti che favoriscono la modellazione visiva del mondo, ma non offre alcun chiaro vantaggio negli altri casi. Nel complesso, questo lavoro chiarisce il potenziale della modellazione multimodale del mondo per un'IA multimodale più potente e simile a quella umana.

English

Humans construct internal world models and reason by manipulating the concepts within these models. Recent advances in AI, particularly chain-of-thought (CoT) reasoning, approximate such human cognitive abilities, where world models are believed to be embedded within large language models. Expert-level performance in formal and abstract domains such as mathematics and programming has been achieved in current systems by relying predominantly on verbal reasoning. However, they still lag far behind humans in domains like physical and spatial intelligence, which require richer representations and prior knowledge. The emergence of unified multimodal models (UMMs) capable of both verbal and visual generation has therefore sparked interest in more human-like reasoning grounded in complementary multimodal pathways, though their benefits remain unclear. From a world-model perspective, this paper presents the first principled study of when and how visual generation benefits reasoning. Our key position is the visual superiority hypothesis: for certain tasks--particularly those grounded in the physical world--visual generation more naturally serves as world models, whereas purely verbal world models encounter bottlenecks arising from representational limitations or insufficient prior knowledge. Theoretically, we formalize internal world modeling as a core component of CoT reasoning and analyze distinctions among different forms of world models. Empirically, we identify tasks that necessitate interleaved visual-verbal CoT reasoning, constructing a new evaluation suite, VisWorld-Eval. Controlled experiments on a state-of-the-art UMM show that interleaved CoT significantly outperforms purely verbal CoT on tasks that favor visual world modeling, but offers no clear advantage otherwise. Together, this work clarifies the potential of multimodal world modeling for more powerful, human-like multimodal AI.

La Generazione Visiva Sblocca il Ragionamento Umano attraverso Modelli Multimodali del Mondo

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Abstract

Support