WoW: К созданию всезнающей модели мира через воплощённое взаимодействие

Аннотация

Люди развивают понимание интуитивной физики через активное взаимодействие с миром. Этот подход резко контрастирует с современными видеомоделями, такими как Sora, которые полагаются на пассивное наблюдение и поэтому испытывают трудности с пониманием физической причинности. Это наблюдение приводит к нашей центральной гипотезе: подлинное физическое интуитивное понимание модели мира должно быть основано на обширных, причинно-богатых взаимодействиях с реальным миром. Чтобы проверить эту гипотезу, мы представляем WoW, генеративную модель мира с 14 миллиардами параметров, обученную на 2 миллионах траекторий взаимодействия роботов. Наши результаты показывают, что понимание физики моделью представляет собой вероятностное распределение правдоподобных исходов, что приводит к стохастической нестабильности и физическим галлюцинациям. Кроме того, мы демонстрируем, что эту возникающую способность можно активно ограничивать в сторону физической реалистичности с помощью SOPHIA, где агенты модели "визуальный язык" оценивают сгенерированный DiT вывод и направляют его уточнение путем итеративного развития языковых инструкций. Дополнительно, совместно обученная модель обратной динамики переводит эти уточненные планы в исполняемые роботизированные действия, замыкая цикл от воображения к действию. Мы создаем WoWBench, новый бенчмарк, ориентированный на физическую согласованность и причинно-следственные рассуждения в видео, где WoW демонстрирует передовые результаты как в человеческой, так и в автономной оценке, показывая сильные способности в физической причинности, динамике столкновений и постоянстве объектов. Наша работа предоставляет систематические доказательства того, что крупномасштабное взаимодействие с реальным миром является краеугольным камнем для развития физической интуиции в ИИ. Модели, данные и бенчмарки будут открыты для общего доступа.

English

Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-parameter generative world model trained on 2 million robot interaction trajectories. Our findings reveal that the model's understanding of physics is a probabilistic distribution of plausible outcomes, leading to stochastic instabilities and physical hallucinations. Furthermore, we demonstrate that this emergent capability can be actively constrained toward physical realism by SOPHIA, where vision-language model agents evaluate the DiT-generated output and guide its refinement by iteratively evolving the language instructions. In addition, a co-trained Inverse Dynamics Model translates these refined plans into executable robotic actions, thus closing the imagination-to-action loop. We establish WoWBench, a new benchmark focused on physical consistency and causal reasoning in video, where WoW achieves state-of-the-art performance in both human and autonomous evaluation, demonstrating strong ability in physical causality, collision dynamics, and object permanence. Our work provides systematic evidence that large-scale, real-world interaction is a cornerstone for developing physical intuition in AI. Models, data, and benchmarks will be open-sourced.

WoW: К созданию всезнающей модели мира через воплощённое взаимодействие

WoW: Towards a World omniscient World model Through Embodied Interaction

Аннотация

Support