Force Prompting: Los Modelos de Generación de Vídeo Pueden Aprender y Generalizar Señales de Control Basadas en Física
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
May 26, 2025
Autores: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI
Resumen
Los recientes avances en los modelos de generación de video han despertado interés en los modelos de mundo capaces de simular entornos realistas. Si bien la navegación ha sido ampliamente explorada, las interacciones físicamente significativas que imitan fuerzas del mundo real siguen siendo en gran parte poco estudiadas. En este trabajo, investigamos el uso de fuerzas físicas como señal de control para la generación de video y proponemos "force prompts" (indicaciones de fuerza) que permiten a los usuarios interactuar con imágenes mediante fuerzas puntuales localizadas, como empujar una planta, y campos de fuerza globales, como el viento soplando sobre una tela. Demostramos que estas indicaciones de fuerza pueden hacer que los videos respondan de manera realista a señales de control físico aprovechando el conocimiento visual y de movimiento previo en el modelo preentrenado original, sin utilizar ningún recurso 3D o simulador de física durante la inferencia. El principal desafío de las indicaciones de fuerza es la dificultad de obtener datos de entrenamiento de alta calidad emparejados fuerza-video, tanto en el mundo real debido a la dificultad de obtener señales de fuerza, como en datos sintéticos debido a las limitaciones en la calidad visual y la diversidad de dominios de los simuladores de física. Nuestro hallazgo clave es que los modelos de generación de video pueden generalizar notablemente bien cuando se adaptan para seguir el condicionamiento de fuerzas físicas a partir de videos sintetizados con Blender, incluso con demostraciones limitadas de pocos objetos. Nuestro método puede generar videos que simulan fuerzas en diversas geometrías, entornos y materiales. También intentamos comprender la fuente de esta generalización y realizamos ablaciones que revelan dos elementos clave: la diversidad visual y el uso de palabras clave específicas durante el entrenamiento. Nuestro enfoque se entrena con solo alrededor de 15,000 ejemplos de entrenamiento durante un solo día en cuatro GPUs A100, y supera a los métodos existentes en adherencia a la fuerza y realismo físico, acercando los modelos de mundo a las interacciones físicas del mundo real. Publicamos todos los conjuntos de datos, código, pesos y demostraciones de video interactivas en nuestra página del proyecto.
English
Recent advances in video generation models have sparked interest in world
models capable of simulating realistic environments. While navigation has been
well-explored, physically meaningful interactions that mimic real-world forces
remain largely understudied. In this work, we investigate using physical forces
as a control signal for video generation and propose force prompts which enable
users to interact with images through both localized point forces, such as
poking a plant, and global wind force fields, such as wind blowing on fabric.
We demonstrate that these force prompts can enable videos to respond
realistically to physical control signals by leveraging the visual and motion
prior in the original pretrained model, without using any 3D asset or physics
simulator at inference. The primary challenge of force prompting is the
difficulty in obtaining high quality paired force-video training data, both in
the real world due to the difficulty of obtaining force signals, and in
synthetic data due to limitations in the visual quality and domain diversity of
physics simulators. Our key finding is that video generation models can
generalize remarkably well when adapted to follow physical force conditioning
from videos synthesized by Blender, even with limited demonstrations of few
objects. Our method can generate videos which simulate forces across diverse
geometries, settings, and materials. We also try to understand the source of
this generalization and perform ablations that reveal two key elements: visual
diversity and the use of specific text keywords during training. Our approach
is trained on only around 15k training examples for a single day on four A100
GPUs, and outperforms existing methods on force adherence and physics realism,
bringing world models closer to real-world physics interactions. We release all
datasets, code, weights, and interactive video demos at our project page.Summary
AI-Generated Summary