La Trinité de la Cohérence comme Principe Définitionnel pour les Modèles Généraux du Monde

Résumé

La construction de modèles du monde capables d'apprendre, de simuler et de raisonner sur les lois physiques objectives constitue un défi fondamental dans la quête de l'intelligence artificielle générale. Les récentes avancées représentées par les modèles de génération vidéo comme Sora ont démontré le potentiel des lois d'échelle basées sur les données pour approximer la dynamique physique, tandis que le modèle multimodal unifié (UMM) émergeant offre un paradigme architectural prometteur pour intégrer la perception, le langage et le raisonnement. Malgré ces progrès, le domaine manque encore d'un cadre théorique principiel définissant les propriétés essentielles requises pour un modèle général du monde. Dans cet article, nous proposons qu'un modèle du monde doit être ancré dans une Trinité de la Cohérence : la Cohérence Modale comme interface sémantique, la Cohérence Spatiale comme base géométrique, et la Cohérence Temporelle comme moteur causal. À travers ce prisme tripartite, nous examinons systématiquement l'évolution de l'apprentissage multimodal, révélant une trajectoire allant de modules spécialisés faiblement couplés vers des architectures unifiées permettant l'émergence synergique de simulateurs internes du monde. Pour compléter ce cadre conceptuel, nous introduisons CoW-Bench, un benchmark centré sur des scénarios de raisonnement et de génération multi-images. CoW-Bench évalue à la fois les modèles de génération vidéo et les UMM sous un protocole d'évaluation unifié. Notre travail établit une voie principielle vers des modèles généraux du monde, clarifiant à la fois les limites des systèmes actuels et les exigences architecturales pour les progrès futurs.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

La Trinité de la Cohérence comme Principe Définitionnel pour les Modèles Généraux du Monde

The Trinity of Consistency as a Defining Principle for General World Models

Résumé

Support