WoW: Op weg naar een alwetend wereldmodel via belichaamde interactie
WoW: Towards a World omniscient World model Through Embodied Interaction
September 26, 2025
Auteurs: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI
Samenvatting
Mensen ontwikkelen een begrip van intuïtieve fysica door actieve interactie met de wereld. Deze aanpak staat in schril contrast met huidige videomodelen, zoals Sora, die afhankelijk zijn van passieve observatie en daardoor moeite hebben met het begrijpen van fysieke causaliteit. Deze observatie leidt tot onze centrale hypothese: authentieke fysieke intuïtie van het wereldmodel moet geworteld zijn in uitgebreide, causaal rijke interacties met de echte wereld. Om deze hypothese te testen, presenteren we WoW, een generatief wereldmodel met 14 miljard parameters, getraind op 2 miljoen robotinteractietrajecten. Onze bevindingen onthullen dat het begrip van fysica door het model een probabilistische verdeling is van plausibele uitkomsten, wat leidt tot stochastische instabiliteiten en fysieke hallucinaties. Bovendien tonen we aan dat deze emergentie van capaciteit actief kan worden beperkt naar fysieke realisme door SOPHIA, waarbij vision-language model agents de door DiT gegenereerde output evalueren en de verfijning ervan begeleiden door iteratief de taal instructies te evolueren. Daarnaast vertaalt een mede-getraind Inverse Dynamics Model deze verfijnde plannen naar uitvoerbare robotacties, waardoor de cirkel van verbeelding naar actie wordt gesloten. We introduceren WoWBench, een nieuwe benchmark gericht op fysieke consistentie en causaal redeneren in video, waar WoW state-of-the-art prestaties behaalt in zowel menselijke als autonome evaluatie, en sterke vaardigheden demonstreert in fysieke causaliteit, botsingsdynamica en objectpermanentie. Ons werk levert systematisch bewijs dat grootschalige, real-world interactie een hoeksteen is voor het ontwikkelen van fysieke intuïtie in AI. Modellen, data en benchmarks zullen open-source worden gemaakt.
English
Humans develop an understanding of intuitive physics through active
interaction with the world. This approach is in stark contrast to current video
models, such as Sora, which rely on passive observation and therefore struggle
with grasping physical causality. This observation leads to our central
hypothesis: authentic physical intuition of the world model must be grounded in
extensive, causally rich interactions with the real world. To test this
hypothesis, we present WoW, a 14-billion-parameter generative world model
trained on 2 million robot interaction trajectories. Our findings reveal that
the model's understanding of physics is a probabilistic distribution of
plausible outcomes, leading to stochastic instabilities and physical
hallucinations. Furthermore, we demonstrate that this emergent capability can
be actively constrained toward physical realism by SOPHIA, where
vision-language model agents evaluate the DiT-generated output and guide its
refinement by iteratively evolving the language instructions. In addition, a
co-trained Inverse Dynamics Model translates these refined plans into
executable robotic actions, thus closing the imagination-to-action loop. We
establish WoWBench, a new benchmark focused on physical consistency and causal
reasoning in video, where WoW achieves state-of-the-art performance in both
human and autonomous evaluation, demonstrating strong ability in physical
causality, collision dynamics, and object permanence. Our work provides
systematic evidence that large-scale, real-world interaction is a cornerstone
for developing physical intuition in AI. Models, data, and benchmarks will be
open-sourced.