ChatPaper.aiChatPaper

Force Prompting: Modelos de Geração de Vídeo Podem Aprender e Generalizar Sinais de Controle Baseados em Física

Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

May 26, 2025
Autores: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun
cs.AI

Resumo

Avanços recentes em modelos de geração de vídeo despertaram interesse em modelos de mundo capazes de simular ambientes realistas. Embora a navegação tenha sido bem explorada, interações fisicamente significativas que imitam forças do mundo real permanecem amplamente pouco estudadas. Neste trabalho, investigamos o uso de forças físicas como sinal de controle para geração de vídeo e propomos "force prompts" (prompts de força), que permitem aos usuários interagir com imagens por meio de forças pontuais localizadas, como cutucar uma planta, e campos de força globais, como o vento soprando em um tecido. Demonstramos que esses prompts de força podem fazer com que os vídeos respondam de forma realista a sinais de controle físico, aproveitando o conhecimento visual e de movimento do modelo pré-treinado original, sem o uso de qualquer ativo 3D ou simulador de física durante a inferência. O principal desafio dos prompts de força é a dificuldade em obter dados de treinamento de alta qualidade que associem força e vídeo, tanto no mundo real devido à dificuldade de capturar sinais de força, quanto em dados sintéticos devido às limitações na qualidade visual e diversidade de domínio dos simuladores de física. Nossa principal descoberta é que modelos de geração de vídeo podem generalizar de forma notável quando adaptados para seguir condicionamentos de força física a partir de vídeos sintetizados pelo Blender, mesmo com demonstrações limitadas de poucos objetos. Nosso método pode gerar vídeos que simulam forças em diversas geometrias, cenários e materiais. Também tentamos entender a origem dessa generalização e realizamos ablações que revelam dois elementos-chave: diversidade visual e o uso de palavras-chave específicas durante o treinamento. Nossa abordagem é treinada com apenas cerca de 15 mil exemplos de treinamento por um único dia em quatro GPUs A100 e supera métodos existentes em aderência à força e realismo físico, aproximando os modelos de mundo das interações físicas do mundo real. Disponibilizamos todos os conjuntos de dados, códigos, pesos e demonstrações interativas de vídeo em nossa página do projeto.
English
Recent advances in video generation models have sparked interest in world models capable of simulating realistic environments. While navigation has been well-explored, physically meaningful interactions that mimic real-world forces remain largely understudied. In this work, we investigate using physical forces as a control signal for video generation and propose force prompts which enable users to interact with images through both localized point forces, such as poking a plant, and global wind force fields, such as wind blowing on fabric. We demonstrate that these force prompts can enable videos to respond realistically to physical control signals by leveraging the visual and motion prior in the original pretrained model, without using any 3D asset or physics simulator at inference. The primary challenge of force prompting is the difficulty in obtaining high quality paired force-video training data, both in the real world due to the difficulty of obtaining force signals, and in synthetic data due to limitations in the visual quality and domain diversity of physics simulators. Our key finding is that video generation models can generalize remarkably well when adapted to follow physical force conditioning from videos synthesized by Blender, even with limited demonstrations of few objects. Our method can generate videos which simulate forces across diverse geometries, settings, and materials. We also try to understand the source of this generalization and perform ablations that reveal two key elements: visual diversity and the use of specific text keywords during training. Our approach is trained on only around 15k training examples for a single day on four A100 GPUs, and outperforms existing methods on force adherence and physics realism, bringing world models closer to real-world physics interactions. We release all datasets, code, weights, and interactive video demos at our project page.
PDF112December 16, 2025