WoW: Rumos a um Modelo de Mundo Onisciente por meio de Interação Corporificada

Resumo

Os seres humanos desenvolvem uma compreensão da física intuitiva por meio da interação ativa com o mundo. Essa abordagem contrasta fortemente com os modelos de vídeo atuais, como o Sora, que dependem de observação passiva e, portanto, lutam para compreender a causalidade física. Essa observação leva à nossa hipótese central: a intuição física autêntica do modelo de mundo deve ser fundamentada em interações extensas e causalmente ricas com o mundo real. Para testar essa hipótese, apresentamos o WoW, um modelo generativo de mundo com 14 bilhões de parâmetros, treinado em 2 milhões de trajetórias de interação robótica. Nossos resultados revelam que a compreensão da física pelo modelo é uma distribuição probabilística de resultados plausíveis, levando a instabilidades estocásticas e alucinações físicas. Além disso, demonstramos que essa capacidade emergente pode ser ativamente restringida em direção ao realismo físico pelo SOPHIA, onde agentes de modelo de visão e linguagem avaliam a saída gerada pelo DiT e orientam seu refinamento por meio da evolução iterativa das instruções de linguagem. Adicionalmente, um Modelo de Dinâmica Inversa co-treinado traduz esses planos refinados em ações robóticas executáveis, fechando assim o ciclo da imaginação à ação. Estabelecemos o WoWBench, um novo benchmark focado na consistência física e raciocínio causal em vídeo, onde o WoW alcança desempenho de ponta tanto em avaliações humanas quanto autônomas, demonstrando forte capacidade em causalidade física, dinâmica de colisão e permanência de objetos. Nosso trabalho fornece evidências sistemáticas de que a interação em larga escala com o mundo real é um pilar fundamental para o desenvolvimento da intuição física em IA. Modelos, dados e benchmarks serão disponibilizados como código aberto.

English

Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-parameter generative world model trained on 2 million robot interaction trajectories. Our findings reveal that the model's understanding of physics is a probabilistic distribution of plausible outcomes, leading to stochastic instabilities and physical hallucinations. Furthermore, we demonstrate that this emergent capability can be actively constrained toward physical realism by SOPHIA, where vision-language model agents evaluate the DiT-generated output and guide its refinement by iteratively evolving the language instructions. In addition, a co-trained Inverse Dynamics Model translates these refined plans into executable robotic actions, thus closing the imagination-to-action loop. We establish WoWBench, a new benchmark focused on physical consistency and causal reasoning in video, where WoW achieves state-of-the-art performance in both human and autonomous evaluation, demonstrating strong ability in physical causality, collision dynamics, and object permanence. Our work provides systematic evidence that large-scale, real-world interaction is a cornerstone for developing physical intuition in AI. Models, data, and benchmarks will be open-sourced.

WoW: Rumos a um Modelo de Mundo Onisciente por meio de Interação Corporificada

WoW: Towards a World omniscient World model Through Embodied Interaction

Resumo

Support