De Drie-eenheid van Consistentie als een Bepalend Principe voor Algemene Wereldmodellen

Samenvatting

De constructie van Wereldmodellen die in staat zijn objectieve natuurwetten te leren, te simuleren en te redeneren, vormt een fundamentele uitdaging in de zoektocht naar Algemene Kunstmatige Intelligentie. Recente vooruitgang, vertegenwoordigd door videogeneratiemodellen zoals Sora, heeft het potentieel aangetoond van data-gedreven schaalwetten om fysische dynamiek te benaderen, terwijl het opkomende Unified Multimodal Model (UMM) een veelbelovend architecturaal paradigma biedt voor de integratie van perceptie, taal en redeneren. Ondanks deze vooruitgang ontbreekt het veld nog steeds aan een principieel theoretisch kader dat de essentiële eigenschappen definieert die nodig zijn voor een Algemeen Wereldmodel. In dit artikel stellen wij voor dat een Wereldmodel gegrondvest moet zijn in de Drie-eenheid van Consistentie: Modale Consistentie als de semantische interface, Ruimtelijke Consistentie als de geometrische basis en Temporele Consistentie als de causale motor. Door deze driedelige lens evalueren wij systematisch de evolutie van multimodaal leren, waarbij een traject zichtbaar wordt van losjes gekoppelde gespecialiseerde modules naar uniforme architecturen die de synergetische opkomst van interne wereldsimulators mogelijk maken. Als aanvulling op dit conceptuele kader introduceren wij CoW-Bench, een benchmark gericht op scenario's voor multi-frame redeneren en generatie. CoW-Bench evalueert zowel videogeneratiemodellen als UMM's onder een uniform evaluatieprotocol. Ons werk legt een principieel pad richting algemene wereldmodellen, waarbij zowel de beperkingen van huidige systemen als de architecturale vereisten voor toekomstige vooruitgang worden verduidelijkt.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

De Drie-eenheid van Consistentie als een Bepalend Principe voor Algemene Wereldmodellen

The Trinity of Consistency as a Defining Principle for General World Models

Samenvatting

Support