WoW : Vers un modèle mondial omniscient à travers l'interaction incarnée
WoW: Towards a World omniscient World model Through Embodied Interaction
September 26, 2025
papers.authors: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI
papers.abstract
Les humains développent une compréhension de la physique intuitive grâce à une interaction active avec le monde. Cette approche contraste fortement avec les modèles vidéo actuels, tels que Sora, qui reposent sur une observation passive et peinent ainsi à saisir la causalité physique. Cette observation conduit à notre hypothèse centrale : une intuition physique authentique du modèle du monde doit être ancrée dans des interactions étendues et riches en causalité avec le monde réel. Pour tester cette hypothèse, nous présentons WoW, un modèle génératif du monde de 14 milliards de paramètres entraîné sur 2 millions de trajectoires d'interaction robotique. Nos résultats révèlent que la compréhension de la physique par le modèle est une distribution probabiliste de résultats plausibles, conduisant à des instabilités stochastiques et à des hallucinations physiques. De plus, nous démontrons que cette capacité émergente peut être activement contrainte vers un réalisme physique par SOPHIA, où des agents de modèle vision-langage évaluent la sortie générée par DiT et guident son raffinement en faisant évoluer itérativement les instructions langagières. Par ailleurs, un modèle de dynamique inverse co-entraîné traduit ces plans raffinés en actions robotiques exécutables, bouclant ainsi la boucle de l'imagination à l'action. Nous établissons WoWBench, un nouveau benchmark axé sur la cohérence physique et le raisonnement causal dans les vidéos, où WoW atteint des performances de pointe à la fois dans les évaluations humaines et autonomes, démontrant une forte capacité en causalité physique, dynamique des collisions et permanence des objets. Notre travail fournit des preuves systématiques qu'une interaction à grande échelle avec le monde réel est une pierre angulaire pour développer l'intuition physique dans l'IA. Les modèles, les données et les benchmarks seront rendus open-source.
English
Humans develop an understanding of intuitive physics through active
interaction with the world. This approach is in stark contrast to current video
models, such as Sora, which rely on passive observation and therefore struggle
with grasping physical causality. This observation leads to our central
hypothesis: authentic physical intuition of the world model must be grounded in
extensive, causally rich interactions with the real world. To test this
hypothesis, we present WoW, a 14-billion-parameter generative world model
trained on 2 million robot interaction trajectories. Our findings reveal that
the model's understanding of physics is a probabilistic distribution of
plausible outcomes, leading to stochastic instabilities and physical
hallucinations. Furthermore, we demonstrate that this emergent capability can
be actively constrained toward physical realism by SOPHIA, where
vision-language model agents evaluate the DiT-generated output and guide its
refinement by iteratively evolving the language instructions. In addition, a
co-trained Inverse Dynamics Model translates these refined plans into
executable robotic actions, thus closing the imagination-to-action loop. We
establish WoWBench, a new benchmark focused on physical consistency and causal
reasoning in video, where WoW achieves state-of-the-art performance in both
human and autonomous evaluation, demonstrating strong ability in physical
causality, collision dynamics, and object permanence. Our work provides
systematic evidence that large-scale, real-world interaction is a cornerstone
for developing physical intuition in AI. Models, data, and benchmarks will be
open-sourced.