La Trinidad de la Consistencia como Principio Definitorio para Modelos Mundiales Generales

Resumen

La construcción de Modelos del Mundo capaces de aprender, simular y razonar sobre leyes físicas objetivas constituye un desafío fundamental en la búsqueda de la Inteligencia Artificial General. Los avances recientes representados por modelos de generación de vídeo como Sora han demostrado el potencial de las leyes de escalado basadas en datos para aproximar dinámicas físicas, mientras que el emergente Modelo Multimodal Unificado (UMM) ofrece un paradigma arquitectónico prometedor para integrar percepción, lenguaje y razonamiento. A pesar de estos avances, el campo aún carece de un marco teórico fundamentado que defina las propiedades esenciales requeridas para un Modelo del Mundo General. En este artículo, proponemos que un Modelo del Mundo debe estar fundamentado en la Trinidad de la Consistencia: la Consistencia Modal como interfaz semántica, la Consistencia Espacial como base geométrica y la Consistencia Temporal como motor causal. A través de esta triple perspectiva, revisamos sistemáticamente la evolución del aprendizaje multimodal, revelando una trayectoria que va desde módulos especializados débilmente acoplados hacia arquitecturas unificadas que permiten la emergencia sinérgica de simuladores internos del mundo. Para complementar este marco conceptual, presentamos CoW-Bench, un punto de referencia centrado en escenarios de razonamiento y generación multifotograma. CoW-Bench evalúa tanto modelos de generación de vídeo como UMMs bajo un protocolo de evaluación unificado. Nuestro trabajo establece una vía fundamentada hacia los modelos generales del mundo, aclarando tanto las limitaciones de los sistemas actuales como los requisitos arquitectónicos para el progreso futuro.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

La Trinidad de la Consistencia como Principio Definitorio para Modelos Mundiales Generales

The Trinity of Consistency as a Defining Principle for General World Models

Resumen

Support