ChatPaper.aiChatPaper

일반적 세계 모델의 정의 원리로서의 일관성 삼위일체

The Trinity of Consistency as a Defining Principle for General World Models

February 26, 2026
저자: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan
cs.AI

초록

객관적 물리 법칙을 학습, 시뮬레이션, 추론할 수 있는 세계 모델(World Model)의 구축은 인공 일반 지능(AGI) 추구의 근본적인 과제이다. Sora와 같은 비디오 생성 모델로 대표되는 최근의 발전은 데이터 중심의 스케일링 법칙(scaling laws)이 물리 역학을 근사할 수 있는 잠재력을 보여주었으며, 새롭게 부상하는 통합 멀티모달 모델(UMM)은 지각, 언어, 추론을 통합하기 위한 유망한 아키텍처 패러다임을 제시한다. 이러한 발전에도 불구하고, 해당 분야는 여전히 일반 세계 모델에 필요한 핵심 속성을 정의하는 원칙적인 이론 체계가 부족하다. 본 논문에서는 세계 모델이 '일관성 삼위일체(Trinity of Consistency)'에 기반해야 함을 제안한다. 즉, 의미론적 인터페이스로서의 모달 일관성(Modal Consistency), 기하학적 기반으로서의 공간 일관성(Spatial Consistency), 인과적 엔진으로서의 시간 일관성(Temporal Consistency)이다. 이 삼중적 관점을 통해 우리는 멀티모달 학습의 진화를 체계적으로 검토하며, 느슨하게 결합된 특화 모듈에서 내부 세계 시뮬레이터의 시너지적 발현을 가능하게 하는 통합 아키텍처로 나아가는 발전 궤적을 밝힌다. 이러한 개념적 체계를 보완하기 위해 다중 프레임 추론 및 생성 시나리오에 중점을 둔 벤치마크인 CoW-Bench를 소개한다. CoW-Bench는 통합 평가 프로토콜 하에서 비디오 생성 모델과 UMM을 모두 평가한다. 본 연구는 일반 세계 모델을 향한 원칙적인 경로를 수립함으로써 현재 시스템의 한계와 미래 발전을 위한 아키텍처 요구 사항을 명확히 한다.
English
The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.
PDF1804February 28, 2026