A Trindade da Consistência como Princípio Definidor para Modelos Gerais do Mundo

Resumo

A construção de Modelos de Mundo capazes de aprender, simular e raciocinar sobre as leis físicas objetivas constitui um desafio fundamental na busca pela Inteligência Artificial Geral. Os avanços recentes representados por modelos de geração de vídeo, como o Sora, demonstraram o potencial das leis de escalonamento baseadas em dados para aproximar dinâmicas físicas, enquanto o emergente Modelo Multimodal Unificado (UMM) oferece um paradigma arquitetônico promissor para integrar percepção, linguagem e raciocínio. Apesar desses avanços, a área ainda carece de uma estrutura teórica fundamentada que defina as propriedades essenciais necessárias para um Modelo de Mundo Geral. Neste artigo, propomos que um Modelo de Mundo deve estar fundamentado na Trindade da Consistência: a Consistência Modal como interface semântica, a Consistência Espacial como base geométrica e a Consistência Temporal como motor causal. Através desta lente tripartida, revisamos sistematicamente a evolução da aprendizagem multimodal, revelando uma trajetória que vai desde módulos especializados fracamente acoplados até arquiteturas unificadas que permitem a emergência sinérgica de simuladores internos do mundo. Para complementar esta estrutura conceitual, introduzimos o CoW-Bench, um benchmark centrado em cenários de raciocínio e geração multiframe. O CoW-Bench avalia tanto modelos de geração de vídeo quanto UMMs sob um protocolo de avaliação unificado. O nosso trabalho estabelece um caminho fundamentado em direção a modelos de mundo gerais, esclarecendo tanto as limitações dos sistemas atuais quanto os requisitos arquitetónicos para progressos futuros.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.