ChatPaper.aiChatPaper

WoW: Auf dem Weg zu einem allwissenden Weltmodell durch verkörperte Interaktion

WoW: Towards a World omniscient World model Through Embodied Interaction

September 26, 2025
papers.authors: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI

papers.abstract

Menschen entwickeln ein Verständnis für intuitive Physik durch aktive Interaktion mit der Welt. Dieser Ansatz steht in starkem Kontrast zu aktuellen Videomodellen, wie Sora, die auf passive Beobachtung angewiesen sind und daher Schwierigkeiten haben, physikalische Kausalität zu erfassen. Diese Beobachtung führt zu unserer zentralen Hypothese: Eine authentische physikalische Intuition des Weltmodells muss auf umfangreichen, kausal reichhaltigen Interaktionen mit der realen Welt basieren. Um diese Hypothese zu testen, präsentieren wir WoW, ein 14-Milliarden-Parameter generatives Weltmodell, das auf 2 Millionen Roboterinteraktions-Trajektorien trainiert wurde. Unsere Ergebnisse zeigen, dass das physikalische Verständnis des Modells eine probabilistische Verteilung plausibler Ergebnisse darstellt, was zu stochastischen Instabilitäten und physikalischen Halluzinationen führt. Darüber hinaus demonstrieren wir, dass diese emergente Fähigkeit durch SOPHIA aktiv in Richtung physikalischer Realität eingeschränkt werden kann, wobei Vision-Sprach-Modell-Agenten die DiT-generierten Ausgaben bewerten und deren Verfeinerung durch iterative Weiterentwicklung der Sprachanweisungen leiten. Zusätzlich übersetzt ein mitentwickeltes inverses Dynamikmodell diese verfeinerten Pläne in ausführbare Roboteraktionen und schließt somit die Schleife von der Imagination zur Aktion. Wir etablieren WoWBench, einen neuen Benchmark, der sich auf physikalische Konsistenz und kausales Denken in Videos konzentriert, wo WoW sowohl in der menschlichen als auch in der autonomen Bewertung Spitzenleistungen erzielt und starke Fähigkeiten in physikalischer Kausalität, Kollisionsdynamik und Objektpermanenz demonstriert. Unsere Arbeit liefert systematische Beweise dafür, dass groß angelegte, reale Interaktionen ein Grundpfeiler für die Entwicklung physikalischer Intuition in der KI sind. Modelle, Daten und Benchmarks werden Open-Source zur Verfügung gestellt.
English
Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-parameter generative world model trained on 2 million robot interaction trajectories. Our findings reveal that the model's understanding of physics is a probabilistic distribution of plausible outcomes, leading to stochastic instabilities and physical hallucinations. Furthermore, we demonstrate that this emergent capability can be actively constrained toward physical realism by SOPHIA, where vision-language model agents evaluate the DiT-generated output and guide its refinement by iteratively evolving the language instructions. In addition, a co-trained Inverse Dynamics Model translates these refined plans into executable robotic actions, thus closing the imagination-to-action loop. We establish WoWBench, a new benchmark focused on physical consistency and causal reasoning in video, where WoW achieves state-of-the-art performance in both human and autonomous evaluation, demonstrating strong ability in physical causality, collision dynamics, and object permanence. Our work provides systematic evidence that large-scale, real-world interaction is a cornerstone for developing physical intuition in AI. Models, data, and benchmarks will be open-sourced.
PDF72September 29, 2025