La Trinità della Coerenza come Principio Definitivo per i Modelli Generali del Mondo

Abstract

La costruzione di Modelli Mondiali in grado di apprendere, simulare e ragionare sulle leggi fisiche oggettive costituisce una sfida fondamentale nel perseguimento dell'Intelligenza Artificiale Generale. I recenti progressi rappresentati da modelli di generazione video come Sora hanno dimostrato il potenziale delle leggi di scaling basate sui dati per approssimare la dinamica fisica, mentre il nascente Modello Multimodale Unificato (UMM) offre un paradigma architetturale promettente per integrare percezione, linguaggio e ragionamento. Nonostante questi avanzamenti, il campo manca ancora di un quadro teorico fondato che definisca le proprietà essenziali necessarie per un Modello Mondiale Generale. In questo articolo, proponiamo che un Modello Mondiale debba essere ancorato alla Trinità della Coerenza: Coerenza Modale come interfaccia semantica, Coerenza Spaziale come base geometrica e Coerenza Temporale come motore causale. Attraverso questa lente tripartita, esaminiamo sistematicamente l'evoluzione dell'apprendimento multimodale, rivelando una traiettoria che va da moduli specializzati debolmente accoppiati verso architetture unificate che abilitano l'emergere sinergico di simulatori del mondo interni. Per integrare questo quadro concettuale, introduciamo CoW-Bench, un benchmark incentrato su scenari di ragionamento e generazione multi-frame. CoW-Bench valuta sia i modelli di generazione video che gli UMM sotto un protocollo di valutazione unificato. Il nostro lavoro stabilisce un percorso fondato verso modelli mondiali generali, chiarendo sia i limiti dei sistemi attuali che i requisiti architetturali per i progressi futuri.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

La Trinità della Coerenza come Principio Definitivo per i Modelli Generali del Mondo

The Trinity of Consistency as a Defining Principle for General World Models

Abstract

Support