Force Prompting: Videogenerationsmodelle können physikbasierte Steuersignale erlernen und verallgemeinern
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
May 26, 2025
Autoren: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Video-Generierungsmodellen haben das Interesse an Weltmodellen geweckt, die realistische Umgebungen simulieren können. Während Navigation bereits gut erforscht wurde, bleiben physikalisch bedeutsame Interaktionen, die reale Kräfte nachahmen, weitgehend unerforscht. In dieser Arbeit untersuchen wir die Verwendung physikalischer Kräfte als Steuersignal für die Video-Generierung und schlagen Kraft-Prompts vor, die es Benutzern ermöglichen, mit Bildern sowohl durch lokalisierte Punktkräfte, wie das Berühren einer Pflanze, als auch durch globale Windkraftfelder, wie Wind, der auf Stoff wirkt, zu interagieren. Wir zeigen, dass diese Kraft-Prompts Videos ermöglichen, realistisch auf physikalische Steuersignale zu reagieren, indem sie das visuelle und Bewegungs-Prior des ursprünglich vortrainierten Modells nutzen, ohne dabei auf 3D-Assets oder Physik-Simulatoren während der Inferenz zurückzugreifen. Die Hauptherausforderung bei der Kraft-Prompting liegt in der Schwierigkeit, hochwertige gepaarte Kraft-Video-Trainingsdaten zu erhalten, sowohl in der realen Welt aufgrund der Schwierigkeit, Kraftsignale zu erfassen, als auch bei synthetischen Daten aufgrund von Einschränkungen in der visuellen Qualität und Domänenvielfalt von Physik-Simulatoren. Unsere zentrale Erkenntnis ist, dass Video-Generierungsmodelle bemerkenswert gut generalisieren können, wenn sie an die Bedingung durch physikalische Kräfte aus Videos, die mit Blender synthetisiert wurden, angepasst werden, selbst mit begrenzten Demonstrationen weniger Objekte. Unsere Methode kann Videos generieren, die Kräfte über diverse Geometrien, Umgebungen und Materialien hinweg simulieren. Wir versuchen auch, die Quelle dieser Generalisierung zu verstehen und führen Ablationen durch, die zwei Schlüsselelemente offenbaren: visuelle Vielfalt und die Verwendung spezifischer Text-Schlüsselwörter während des Trainings. Unser Ansatz wird mit nur etwa 15.000 Trainingsbeispielen für einen einzigen Tag auf vier A100-GPUs trainiert und übertrifft bestehende Methoden in Bezug auf Kraftadhärenz und physikalische Realismus, wodurch Weltmodelle näher an realen physikalischen Interaktionen gebracht werden. Wir veröffentlichen alle Datensätze, Code, Gewichte und interaktive Video-Demos auf unserer Projektseite.
English
Recent advances in video generation models have sparked interest in world
models capable of simulating realistic environments. While navigation has been
well-explored, physically meaningful interactions that mimic real-world forces
remain largely understudied. In this work, we investigate using physical forces
as a control signal for video generation and propose force prompts which enable
users to interact with images through both localized point forces, such as
poking a plant, and global wind force fields, such as wind blowing on fabric.
We demonstrate that these force prompts can enable videos to respond
realistically to physical control signals by leveraging the visual and motion
prior in the original pretrained model, without using any 3D asset or physics
simulator at inference. The primary challenge of force prompting is the
difficulty in obtaining high quality paired force-video training data, both in
the real world due to the difficulty of obtaining force signals, and in
synthetic data due to limitations in the visual quality and domain diversity of
physics simulators. Our key finding is that video generation models can
generalize remarkably well when adapted to follow physical force conditioning
from videos synthesized by Blender, even with limited demonstrations of few
objects. Our method can generate videos which simulate forces across diverse
geometries, settings, and materials. We also try to understand the source of
this generalization and perform ablations that reveal two key elements: visual
diversity and the use of specific text keywords during training. Our approach
is trained on only around 15k training examples for a single day on four A100
GPUs, and outperforms existing methods on force adherence and physics realism,
bringing world models closer to real-world physics interactions. We release all
datasets, code, weights, and interactive video demos at our project page.Summary
AI-Generated Summary