ChatPaper.aiChatPaper

Force Prompting: Videogeneratiemodellen kunnen leren en generaliseren op basis van natuurkundige besturingssignalen

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

May 26, 2025
Auteurs: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI

Samenvatting

Recente vooruitgang in videogeneratiemodellen heeft interesse gewekt in wereldmodellen die realistische omgevingen kunnen simuleren. Hoewel navigatie uitgebreid is onderzocht, blijven fysiek betekenisvolle interacties die echte wereldkrachten nabootsen grotendeels onderbelicht. In dit werk onderzoeken we het gebruik van fysieke krachten als controlesignaal voor videogeneratie en introduceren we krachtprompts die gebruikers in staat stellen om met afbeeldingen te interacteren via zowel gelokaliseerde puntkrachten, zoals het porren van een plant, als globale windkrachtvelden, zoals wind die op stof blaast. We tonen aan dat deze krachtprompts video's realistisch kunnen laten reageren op fysieke controlesignalen door gebruik te maken van het visuele en bewegingsprior in het oorspronkelijke voorgetrainde model, zonder gebruik te maken van 3D-assets of fysicasimulatoren tijdens de inferentie. De belangrijkste uitdaging van krachtprompting is de moeilijkheid om hoogwaardige gepaarde kracht-video-trainingsdata te verkrijgen, zowel in de echte wereld vanwege de moeilijkheid om krachtsignalen te verkrijgen, als in synthetische data vanwege beperkingen in de visuele kwaliteit en domeindiversiteit van fysicasimulatoren. Onze belangrijkste bevinding is dat videogeneratiemodellen opmerkelijk goed kunnen generaliseren wanneer ze worden aangepast om fysieke krachtconditionering te volgen vanuit video's die zijn gesynthetiseerd door Blender, zelfs met beperkte demonstraties van enkele objecten. Onze methode kan video's genereren die krachten simuleren over diverse geometrieën, omgevingen en materialen. We proberen ook de bron van deze generalisatie te begrijpen en voeren ablatie-onderzoeken uit die twee cruciale elementen onthullen: visuele diversiteit en het gebruik van specifieke tekstzoekwoorden tijdens de training. Onze aanpak wordt getraind op slechts ongeveer 15k trainingsvoorbeelden gedurende één dag op vier A100 GPU's, en overtreft bestaande methoden op het gebied van krachtnaleving en fysicarealisme, waardoor wereldmodellen dichter bij real-world fysica-interacties komen. We maken alle datasets, code, gewichten en interactieve videodemo's beschikbaar op onze projectpagina.
English
Recent advances in video generation models have sparked interest in world models capable of simulating realistic environments. While navigation has been well-explored, physically meaningful interactions that mimic real-world forces remain largely understudied. In this work, we investigate using physical forces as a control signal for video generation and propose force prompts which enable users to interact with images through both localized point forces, such as poking a plant, and global wind force fields, such as wind blowing on fabric. We demonstrate that these force prompts can enable videos to respond realistically to physical control signals by leveraging the visual and motion prior in the original pretrained model, without using any 3D asset or physics simulator at inference. The primary challenge of force prompting is the difficulty in obtaining high quality paired force-video training data, both in the real world due to the difficulty of obtaining force signals, and in synthetic data due to limitations in the visual quality and domain diversity of physics simulators. Our key finding is that video generation models can generalize remarkably well when adapted to follow physical force conditioning from videos synthesized by Blender, even with limited demonstrations of few objects. Our method can generate videos which simulate forces across diverse geometries, settings, and materials. We also try to understand the source of this generalization and perform ablations that reveal two key elements: visual diversity and the use of specific text keywords during training. Our approach is trained on only around 15k training examples for a single day on four A100 GPUs, and outperforms existing methods on force adherence and physics realism, bringing world models closer to real-world physics interactions. We release all datasets, code, weights, and interactive video demos at our project page.
PDF112May 27, 2025