WoW: Verso un modello mondiale onnisciente attraverso l'interazione incarnata
WoW: Towards a World omniscient World model Through Embodied Interaction
September 26, 2025
Autori: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI
Abstract
Gli esseri umani sviluppano una comprensione della fisica intuitiva attraverso l'interazione attiva con il mondo. Questo approccio è in netto contrasto con i modelli video attuali, come Sora, che si basano sull'osservazione passiva e quindi faticano a cogliere la causalità fisica. Questa osservazione porta alla nostra ipotesi centrale: l'intuizione fisica autentica del modello del mondo deve essere radicata in interazioni estese e causalmente ricche con il mondo reale. Per testare questa ipotesi, presentiamo WoW, un modello generativo del mondo da 14 miliardi di parametri addestrato su 2 milioni di traiettorie di interazione robotica. I nostri risultati rivelano che la comprensione della fisica da parte del modello è una distribuzione probabilistica di esiti plausibili, che porta a instabilità stocastiche e allucinazioni fisiche. Inoltre, dimostriamo che questa capacità emergente può essere attivamente vincolata verso il realismo fisico da SOPHIA, dove agenti modello visione-linguaggio valutano l'output generato da DiT e ne guidano il perfezionamento evolvendo iterativamente le istruzioni linguistiche. In aggiunta, un modello di dinamica inversa co-addestrato traduce questi piani raffinati in azioni robotiche eseguibili, chiudendo così il ciclo dall'immaginazione all'azione. Istituiamo WoWBench, un nuovo benchmark focalizzato sulla coerenza fisica e sul ragionamento causale nei video, dove WoW raggiunge prestazioni all'avanguardia sia nella valutazione umana che in quella autonoma, dimostrando una forte capacità nella causalità fisica, nella dinamica delle collisioni e nella permanenza degli oggetti. Il nostro lavoro fornisce prove sistematiche che l'interazione su larga scala con il mondo reale è un pilastro fondamentale per sviluppare l'intuizione fisica nell'IA. Modelli, dati e benchmark saranno resi open-source.
English
Humans develop an understanding of intuitive physics through active
interaction with the world. This approach is in stark contrast to current video
models, such as Sora, which rely on passive observation and therefore struggle
with grasping physical causality. This observation leads to our central
hypothesis: authentic physical intuition of the world model must be grounded in
extensive, causally rich interactions with the real world. To test this
hypothesis, we present WoW, a 14-billion-parameter generative world model
trained on 2 million robot interaction trajectories. Our findings reveal that
the model's understanding of physics is a probabilistic distribution of
plausible outcomes, leading to stochastic instabilities and physical
hallucinations. Furthermore, we demonstrate that this emergent capability can
be actively constrained toward physical realism by SOPHIA, where
vision-language model agents evaluate the DiT-generated output and guide its
refinement by iteratively evolving the language instructions. In addition, a
co-trained Inverse Dynamics Model translates these refined plans into
executable robotic actions, thus closing the imagination-to-action loop. We
establish WoWBench, a new benchmark focused on physical consistency and causal
reasoning in video, where WoW achieves state-of-the-art performance in both
human and autonomous evaluation, demonstrating strong ability in physical
causality, collision dynamics, and object permanence. Our work provides
systematic evidence that large-scale, real-world interaction is a cornerstone
for developing physical intuition in AI. Models, data, and benchmarks will be
open-sourced.