Принудительное управление: модели генерации видео способны обучаться и обобщать физически обоснованные управляющие сигналы
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
May 26, 2025
Авторы: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI
Аннотация
Недавние достижения в моделях генерации видео вызвали интерес к моделям мира, способным симулировать реалистичные среды. Хотя навигация была хорошо изучена, физически значимые взаимодействия, имитирующие реальные силы, остаются в значительной степени неисследованными. В данной работе мы исследуем использование физических сил в качестве управляющего сигнала для генерации видео и предлагаем "силовые подсказки", которые позволяют пользователям взаимодействовать с изображениями как через локализованные точечные силы, например, толчок растения, так и через глобальные силовые поля, такие как ветер, воздействующий на ткань. Мы демонстрируем, что эти силовые подсказки могут заставить видео реалистично реагировать на физические управляющие сигналы, используя визуальные и моторные приоритеты исходной предобученной модели, без использования каких-либо 3D-ассетов или физических симуляторов на этапе вывода. Основная сложность силовых подсказок заключается в трудности получения высококачественных парных данных "сила-видео" для обучения, как в реальном мире из-за сложности получения сигналов силы, так и в синтетических данных из-за ограничений в визуальном качестве и разнообразии доменов физических симуляторов. Наше ключевое открытие заключается в том, что модели генерации видео могут обобщаться удивительно хорошо, когда адаптированы для следования физическому силовому условию на основе видео, синтезированных в Blender, даже при ограниченных демонстрациях с небольшим количеством объектов. Наш метод может генерировать видео, симулирующие силы на разнообразных геометриях, настройках и материалах. Мы также пытаемся понять источник этого обобщения и проводим абляции, которые выявляют два ключевых элемента: визуальное разнообразие и использование конкретных текстовых ключевых слов во время обучения. Наш подход обучается всего на около 15 тыс. обучающих примеров в течение одного дня на четырех GPU A100 и превосходит существующие методы по следованию силам и реализму физики, приближая модели мира к взаимодействиям с реальной физикой. Мы публикуем все наборы данных, код, веса и интерактивные демонстрации видео на странице нашего проекта.
English
Recent advances in video generation models have sparked interest in world
models capable of simulating realistic environments. While navigation has been
well-explored, physically meaningful interactions that mimic real-world forces
remain largely understudied. In this work, we investigate using physical forces
as a control signal for video generation and propose force prompts which enable
users to interact with images through both localized point forces, such as
poking a plant, and global wind force fields, such as wind blowing on fabric.
We demonstrate that these force prompts can enable videos to respond
realistically to physical control signals by leveraging the visual and motion
prior in the original pretrained model, without using any 3D asset or physics
simulator at inference. The primary challenge of force prompting is the
difficulty in obtaining high quality paired force-video training data, both in
the real world due to the difficulty of obtaining force signals, and in
synthetic data due to limitations in the visual quality and domain diversity of
physics simulators. Our key finding is that video generation models can
generalize remarkably well when adapted to follow physical force conditioning
from videos synthesized by Blender, even with limited demonstrations of few
objects. Our method can generate videos which simulate forces across diverse
geometries, settings, and materials. We also try to understand the source of
this generalization and perform ablations that reveal two key elements: visual
diversity and the use of specific text keywords during training. Our approach
is trained on only around 15k training examples for a single day on four A100
GPUs, and outperforms existing methods on force adherence and physics realism,
bringing world models closer to real-world physics interactions. We release all
datasets, code, weights, and interactive video demos at our project page.Summary
AI-Generated Summary