ChatPaper.aiChatPaper

Force Prompting: I Modelli di Generazione Video Possono Apprendere e Generalizzare Segnali di Controllo Basati sulla Fisica

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

May 26, 2025
Autori: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI

Abstract

I recenti progressi nei modelli di generazione video hanno suscitato interesse verso modelli di mondo capaci di simulare ambienti realistici. Sebbene la navigazione sia stata ampiamente esplorata, le interazioni fisicamente significative che imitano le forze del mondo reale rimangono in gran parte poco studiate. In questo lavoro, indaghiamo l'uso delle forze fisiche come segnale di controllo per la generazione video e proponiamo i "force prompt", che consentono agli utenti di interagire con le immagini attraverso sia forze puntuali localizzate, come il toccare una pianta, sia campi di forza globali, come il vento che soffia su un tessuto. Dimostriamo che questi force prompt possono far sì che i video rispondano in modo realistico ai segnali di controllo fisici sfruttando il prior visivo e di movimento nel modello pre-addestrato originale, senza utilizzare alcun asset 3D o simulatore fisico durante l'inferenza. La principale sfida dei force prompt è la difficoltà di ottenere dati di addestramento di alta qualità accoppiati forza-video, sia nel mondo reale a causa della difficoltà di acquisire segnali di forza, sia nei dati sintetici a causa delle limitazioni nella qualità visiva e nella diversità di dominio dei simulatori fisici. La nostra scoperta chiave è che i modelli di generazione video possono generalizzare in modo sorprendente quando adattati a seguire il condizionamento delle forze fisiche da video sintetizzati con Blender, anche con dimostrazioni limitate di pochi oggetti. Il nostro metodo può generare video che simulano forze su geometrie, ambientazioni e materiali diversi. Cerchiamo anche di comprendere l'origine di questa generalizzazione e eseguiamo ablazioni che rivelano due elementi chiave: la diversità visiva e l'uso di specifiche parole chiave durante l'addestramento. Il nostro approccio viene addestrato su circa 15k esempi di addestramento per un solo giorno su quattro GPU A100 e supera i metodi esistenti in termini di aderenza alle forze e realismo fisico, avvicinando i modelli di mondo alle interazioni fisiche del mondo reale. Rilasciamo tutti i dataset, il codice, i pesi e le demo video interattive sulla nostra pagina del progetto.
English
Recent advances in video generation models have sparked interest in world models capable of simulating realistic environments. While navigation has been well-explored, physically meaningful interactions that mimic real-world forces remain largely understudied. In this work, we investigate using physical forces as a control signal for video generation and propose force prompts which enable users to interact with images through both localized point forces, such as poking a plant, and global wind force fields, such as wind blowing on fabric. We demonstrate that these force prompts can enable videos to respond realistically to physical control signals by leveraging the visual and motion prior in the original pretrained model, without using any 3D asset or physics simulator at inference. The primary challenge of force prompting is the difficulty in obtaining high quality paired force-video training data, both in the real world due to the difficulty of obtaining force signals, and in synthetic data due to limitations in the visual quality and domain diversity of physics simulators. Our key finding is that video generation models can generalize remarkably well when adapted to follow physical force conditioning from videos synthesized by Blender, even with limited demonstrations of few objects. Our method can generate videos which simulate forces across diverse geometries, settings, and materials. We also try to understand the source of this generalization and perform ablations that reveal two key elements: visual diversity and the use of specific text keywords during training. Our approach is trained on only around 15k training examples for a single day on four A100 GPUs, and outperforms existing methods on force adherence and physics realism, bringing world models closer to real-world physics interactions. We release all datasets, code, weights, and interactive video demos at our project page.
PDF112May 27, 2025