Die Dreifaltigkeit der Konsistenz als definierendes Prinzip für allgemeine Weltmodelle
The Trinity of Consistency as a Defining Principle for General World Models
February 26, 2026
Autoren: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan
cs.AI
Zusammenfassung
Die Konstruktion von Weltmodellen, die objektive physikalische Gesetze erlernen, simulieren und darüber schlussfolgern können, stellt eine grundlegende Herausforderung auf dem Weg zur Künstlichen Allgemeinen Intelligenz dar. Jüngste Fortschritte, repräsentiert durch Videogenerierungsmodelle wie Sora, haben das Potenzial datengetriebener Skalierungsgesetze zur Approximation physikalischer Dynamiken aufgezeigt, während das aufkommende Unified Multimodal Model (UMM) ein vielversprechendes Architekturparadigma zur Integration von Wahrnehmung, Sprache und logischem Schlussfolgern bietet. Trotz dieser Fortschritte fehlt es dem Feld nach wie vor an einem prinzipienbasierten theoretischen Rahmenwerk, das die wesentlichen Eigenschaften eines allgemeinen Weltmodells definiert. In diesem Beitrag schlagen wir vor, dass ein Weltmodell auf der Trinität der Konsistenz gründen muss: modale Konsistenz als semantische Schnittstelle, räumliche Konsistenz als geometrische Basis und zeitliche Konsistenz als kausale Triebkraft. Durch diese dreiteilige Betrachtung systematisieren wir die Evolution multimodalen Lernens und zeigen einen Entwicklungspfad von lose gekoppelten spezialisierten Modulen hin zu vereinheitlichten Architekturen auf, die die synergetische Emergenz interner Weltsimulatoren ermöglichen. Zur Ergänzung dieses konzeptionellen Rahmens führen wir CoW-Bench ein, einen Benchmark, der sich auf Szenarien mit Mehrbild-Schlussfolgerung und -Generierung konzentriert. CoW-Bench evaluiert sowohl Videogenerierungsmodelle als auch UMMs unter einem einheitlichen Bewertungsprotokoll. Unsere Arbeit etabliert einen prinzipienbasierten Weg hin zu allgemeinen Weltmodellen, der sowohl die Grenzen aktueller Systeme als auch die architektonischen Anforderungen für zukünftige Fortschritte aufzeigt.
English
The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.