WoW: Rumos a um Modelo de Mundo Onisciente por meio de Interação Corporificada
WoW: Towards a World omniscient World model Through Embodied Interaction
September 26, 2025
Autores: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang
cs.AI
Resumo
Os seres humanos desenvolvem uma compreensão da física intuitiva por meio da interação ativa com o mundo. Essa abordagem contrasta fortemente com os modelos de vídeo atuais, como o Sora, que dependem de observação passiva e, portanto, lutam para compreender a causalidade física. Essa observação leva à nossa hipótese central: a intuição física autêntica do modelo de mundo deve ser fundamentada em interações extensas e causalmente ricas com o mundo real. Para testar essa hipótese, apresentamos o WoW, um modelo generativo de mundo com 14 bilhões de parâmetros, treinado em 2 milhões de trajetórias de interação robótica. Nossos resultados revelam que a compreensão da física pelo modelo é uma distribuição probabilística de resultados plausíveis, levando a instabilidades estocásticas e alucinações físicas. Além disso, demonstramos que essa capacidade emergente pode ser ativamente restringida em direção ao realismo físico pelo SOPHIA, onde agentes de modelo de visão e linguagem avaliam a saída gerada pelo DiT e orientam seu refinamento por meio da evolução iterativa das instruções de linguagem. Adicionalmente, um Modelo de Dinâmica Inversa co-treinado traduz esses planos refinados em ações robóticas executáveis, fechando assim o ciclo da imaginação à ação. Estabelecemos o WoWBench, um novo benchmark focado na consistência física e raciocínio causal em vídeo, onde o WoW alcança desempenho de ponta tanto em avaliações humanas quanto autônomas, demonstrando forte capacidade em causalidade física, dinâmica de colisão e permanência de objetos. Nosso trabalho fornece evidências sistemáticas de que a interação em larga escala com o mundo real é um pilar fundamental para o desenvolvimento da intuição física em IA. Modelos, dados e benchmarks serão disponibilizados como código aberto.
English
Humans develop an understanding of intuitive physics through active
interaction with the world. This approach is in stark contrast to current video
models, such as Sora, which rely on passive observation and therefore struggle
with grasping physical causality. This observation leads to our central
hypothesis: authentic physical intuition of the world model must be grounded in
extensive, causally rich interactions with the real world. To test this
hypothesis, we present WoW, a 14-billion-parameter generative world model
trained on 2 million robot interaction trajectories. Our findings reveal that
the model's understanding of physics is a probabilistic distribution of
plausible outcomes, leading to stochastic instabilities and physical
hallucinations. Furthermore, we demonstrate that this emergent capability can
be actively constrained toward physical realism by SOPHIA, where
vision-language model agents evaluate the DiT-generated output and guide its
refinement by iteratively evolving the language instructions. In addition, a
co-trained Inverse Dynamics Model translates these refined plans into
executable robotic actions, thus closing the imagination-to-action loop. We
establish WoWBench, a new benchmark focused on physical consistency and causal
reasoning in video, where WoW achieves state-of-the-art performance in both
human and autonomous evaluation, demonstrating strong ability in physical
causality, collision dynamics, and object permanence. Our work provides
systematic evidence that large-scale, real-world interaction is a cornerstone
for developing physical intuition in AI. Models, data, and benchmarks will be
open-sourced.