Троица согласованности как определяющий принцип для общих моделей мира

Аннотация

Создание Мировых Моделей, способных изучать, моделировать и рассуждать об объективных физических законах, представляет собой фундаментальную задачу на пути к достижению Общего Искусственного Интеллекта. Недавние достижения, представленные моделями генерации видео, такими как Sora, продемонстрировали потенциал масштабных законов, управляемых данными, для аппроксимации физической динамики, в то время как emerging Единая Мультимодальная Модель (Unified Multimodal Model, UMM) предлагает перспективную архитектурную парадигму для интеграции восприятия, языка и рассуждений. Несмотря на эти успехи, в данной области по-прежнему отсутствует принципиальная теоретическая основа, определяющая essential свойства, необходимые для Общей Мировой Модели. В данной статье мы утверждаем, что Мировая Модель должна быть основана на Троице Согласованности: Модальная Согласованность как семантический интерфейс, Пространственная Согласованность как геометрическая основа и Временна́я Согласованность как причинный механизм. Через эту трехчастную призму мы систематически анализируем эволюцию мультимодального обучения, выявляя траекторию от слабо связанных специализированных модулей к унифицированным архитектурам, которые позволяют осуществить синергетическое emergence внутренних симуляторов мира. Для дополнения этой концептуальной основы мы представляем CoW-Bench, бенчмарк, сфокусированный на сценариях многокадрового рассуждения и генерации. CoW-Bench оценивает как модели генерации видео, так и UMM в рамках единого протокола оценки. Наша работа устанавливает принципиальный путь к созданию общих мировых моделей, проясняя как ограничения современных систем, так и архитектурные требования для будущего прогресса.

English

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

Троица согласованности как определяющий принцип для общих моделей мира

The Trinity of Consistency as a Defining Principle for General World Models

Аннотация

Support