Force Prompting : Les modèles de génération vidéo peuvent apprendre et généraliser des signaux de contrôle basés sur la physique
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
May 26, 2025
Auteurs: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI
Résumé
Les récentes avancées dans les modèles de génération vidéo ont suscité un intérêt croissant pour les modèles de monde capables de simuler des environnements réalistes. Bien que la navigation ait été largement explorée, les interactions physiquement significatives qui imitent les forces du monde réel restent largement sous-étudiées. Dans ce travail, nous étudions l'utilisation des forces physiques comme signal de contrôle pour la génération vidéo et proposons des "force prompts" qui permettent aux utilisateurs d'interagir avec des images à travers des forces ponctuelles localisées, comme piquer une plante, et des champs de force globaux, comme le vent soufflant sur un tissu. Nous démontrons que ces "force prompts" peuvent permettre aux vidéos de réagir de manière réaliste aux signaux de contrôle physiques en exploitant les connaissances visuelles et de mouvement du modèle pré-entraîné d'origine, sans utiliser d'assets 3D ou de simulateur physique lors de l'inférence. Le principal défi des "force prompts" est la difficulté d'obtenir des données d'entraînement de haute qualité associant forces et vidéos, à la fois dans le monde réel en raison de la difficulté à obtenir des signaux de force, et dans les données synthétiques en raison des limitations de la qualité visuelle et de la diversité des domaines des simulateurs physiques. Notre découverte clé est que les modèles de génération vidéo peuvent généraliser remarquablement bien lorsqu'ils sont adaptés pour suivre un conditionnement par forces physiques à partir de vidéos synthétisées par Blender, même avec un nombre limité de démonstrations impliquant peu d'objets. Notre méthode peut générer des vidéos qui simulent des forces sur des géométries, des environnements et des matériaux divers. Nous cherchons également à comprendre la source de cette généralisation et effectuons des ablations qui révèlent deux éléments clés : la diversité visuelle et l'utilisation de mots-clés spécifiques pendant l'entraînement. Notre approche est entraînée sur seulement environ 15 000 exemples pendant une journée sur quatre GPU A100, et surpasse les méthodes existantes en termes d'adhésion aux forces et de réalisme physique, rapprochant les modèles de monde des interactions physiques du monde réel. Nous publions tous les ensembles de données, le code, les poids et les démos vidéo interactives sur notre page de projet.
English
Recent advances in video generation models have sparked interest in world
models capable of simulating realistic environments. While navigation has been
well-explored, physically meaningful interactions that mimic real-world forces
remain largely understudied. In this work, we investigate using physical forces
as a control signal for video generation and propose force prompts which enable
users to interact with images through both localized point forces, such as
poking a plant, and global wind force fields, such as wind blowing on fabric.
We demonstrate that these force prompts can enable videos to respond
realistically to physical control signals by leveraging the visual and motion
prior in the original pretrained model, without using any 3D asset or physics
simulator at inference. The primary challenge of force prompting is the
difficulty in obtaining high quality paired force-video training data, both in
the real world due to the difficulty of obtaining force signals, and in
synthetic data due to limitations in the visual quality and domain diversity of
physics simulators. Our key finding is that video generation models can
generalize remarkably well when adapted to follow physical force conditioning
from videos synthesized by Blender, even with limited demonstrations of few
objects. Our method can generate videos which simulate forces across diverse
geometries, settings, and materials. We also try to understand the source of
this generalization and perform ablations that reveal two key elements: visual
diversity and the use of specific text keywords during training. Our approach
is trained on only around 15k training examples for a single day on four A100
GPUs, and outperforms existing methods on force adherence and physics realism,
bringing world models closer to real-world physics interactions. We release all
datasets, code, weights, and interactive video demos at our project page.Summary
AI-Generated Summary