ChatPaper.aiChatPaper

Силовое поле целей: обучение видеомоделей достижению физически обусловленных целей

Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

January 9, 2026
Авторы: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun
cs.AI

Аннотация

Последние достижения в области генерации видео позволили создать «мировые модели», способные симулировать потенциальные варианты будущего для робототехники и планирования. Однако точная спецификация целей для этих моделей остается сложной задачей: текстовые инструкции часто слишком абстрактны, чтобы передать физические нюансы, а целевые изображения зачастую невозможно задать для динамических задач. Для решения этой проблемы мы представляем Goal Force — новую концепцию, которая позволяет пользователям определять цели с помощью явных векторов силы и промежуточной динамики, отражая то, как человек концептуализирует физические задачи. Мы обучаем модель генерации видео на специально подготовленном наборе синтетических каузальных примитивов — таких как упругие столкновения и падающие кости домино, — обучая ее распространять силы во времени и пространстве. Несмотря на обучение на данных простой физики, наша модель демонстрирует впечатляющую способность к zero-shot обобщению на сложные реальные сценарии, включая манипуляции инструментами и каузальные цепочки множества объектов. Наши результаты позволяют предположить, что, основав генерацию видео на фундаментальных физических взаимодействиях, модели могут выступать в роли неявных нейросетевых симуляторов физики, обеспечивая точное, учитывающее физику планирование без reliance на внешние движки. Все наборы данных, код, веса моделей и интерактивные видео-демонстрации доступны на странице нашего проекта.
English
Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.
PDF111January 13, 2026