WoW: Hacia un modelo mundial omnisciente a través de la interacción encarnada
WoW: Towards a World omniscient World model Through Embodied Interaction
September 26, 2025
Autores: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI
Resumen
Los seres humanos desarrollan una comprensión de la física intuitiva a través de la interacción activa con el mundo. Este enfoque contrasta marcadamente con los modelos de video actuales, como Sora, que dependen de la observación pasiva y, por lo tanto, tienen dificultades para captar la causalidad física. Esta observación lleva a nuestra hipótesis central: la intuición física auténtica del modelo del mundo debe estar fundamentada en interacciones extensas y causalmente ricas con el mundo real. Para probar esta hipótesis, presentamos WoW, un modelo generativo del mundo con 14 mil millones de parámetros, entrenado en 2 millones de trayectorias de interacción robótica. Nuestros hallazgos revelan que la comprensión de la física por parte del modelo es una distribución probabilística de resultados plausibles, lo que conduce a inestabilidades estocásticas y alucinaciones físicas. Además, demostramos que esta capacidad emergente puede ser activamente restringida hacia el realismo físico mediante SOPHIA, donde agentes de modelos de visión-lenguaje evalúan la salida generada por DiT y guían su refinamiento mediante la evolución iterativa de las instrucciones de lenguaje. Adicionalmente, un Modelo de Dinámica Inversa co-entrenado traduce estos planes refinados en acciones robóticas ejecutables, cerrando así el ciclo de imaginación a acción. Establecemos WoWBench, un nuevo punto de referencia centrado en la consistencia física y el razonamiento causal en video, donde WoW alcanza un rendimiento de vanguardia tanto en evaluaciones humanas como autónomas, demostrando una fuerte capacidad en causalidad física, dinámica de colisiones y permanencia de objetos. Nuestro trabajo proporciona evidencia sistemática de que la interacción a gran escala con el mundo real es un pilar fundamental para desarrollar la intuición física en la IA. Los modelos, datos y puntos de referencia serán de código abierto.
English
Humans develop an understanding of intuitive physics through active
interaction with the world. This approach is in stark contrast to current video
models, such as Sora, which rely on passive observation and therefore struggle
with grasping physical causality. This observation leads to our central
hypothesis: authentic physical intuition of the world model must be grounded in
extensive, causally rich interactions with the real world. To test this
hypothesis, we present WoW, a 14-billion-parameter generative world model
trained on 2 million robot interaction trajectories. Our findings reveal that
the model's understanding of physics is a probabilistic distribution of
plausible outcomes, leading to stochastic instabilities and physical
hallucinations. Furthermore, we demonstrate that this emergent capability can
be actively constrained toward physical realism by SOPHIA, where
vision-language model agents evaluate the DiT-generated output and guide its
refinement by iteratively evolving the language instructions. In addition, a
co-trained Inverse Dynamics Model translates these refined plans into
executable robotic actions, thus closing the imagination-to-action loop. We
establish WoWBench, a new benchmark focused on physical consistency and causal
reasoning in video, where WoW achieves state-of-the-art performance in both
human and autonomous evaluation, demonstrating strong ability in physical
causality, collision dynamics, and object permanence. Our work provides
systematic evidence that large-scale, real-world interaction is a cornerstone
for developing physical intuition in AI. Models, data, and benchmarks will be
open-sourced.