ChatPaper.aiChatPaper

Geração de Vídeo com Simulador Físico em Loop

Physical Simulator In-the-Loop Video Generation

March 6, 2026
Autores: Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt
cs.AI

Resumo

Os recentes avanços na geração de vídeos baseada em difusão alcançaram um realismo visual notável, mas ainda lutam para obedecer a leis físicas básicas, como gravidade, inércia e colisão. Objetos gerados frequentemente se movem de forma inconsistente entre os quadros, exibem dinâmicas implausíveis ou violam restrições físicas, limitando o realismo e a confiabilidade dos vídeos gerados por IA. Abordamos essa lacuna introduzindo o Physical Simulator In-the-loop Video Generation (PSIVG), uma estrutura inovadora que integra um simulador físico ao processo de difusão de vídeo. A partir de um vídeo modelo gerado por um modelo de difusão pré-treinado, o PSIVG reconstrói a cena 4D e as malhas dos objetos em primeiro plano, inicializa-as em um simulador físico e gera trajetórias fisicamente consistentes. Essas trajetórias simuladas são então usadas para orientar o gerador de vídeo em direção a um movimento fisicamente coerente espaço-temporalmente. Para melhorar ainda mais a consistência da textura durante o movimento do objeto, propomos uma técnica de Test-Time Texture Consistency Optimization (TTCO) que adapta os embeddings de texto e características com base em correspondências de pixels do simulador. Experimentos abrangentes demonstram que o PSIVG produz vídeos que aderem melhor à física do mundo real, preservando a qualidade visual e a diversidade. Página do Projeto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
English
Recent advances in diffusion-based video generation have achieved remarkable visual realism but still struggle to obey basic physical laws such as gravity, inertia, and collision. Generated objects often move inconsistently across frames, exhibit implausible dynamics, or violate physical constraints, limiting the realism and reliability of AI-generated videos. We address this gap by introducing Physical Simulator In-the-loop Video Generation (PSIVG), a novel framework that integrates a physical simulator into the video diffusion process. Starting from a template video generated by a pre-trained diffusion model, PSIVG reconstructs the 4D scene and foreground object meshes, initializes them within a physical simulator, and generates physically consistent trajectories. These simulated trajectories are then used to guide the video generator toward spatio-temporally physically coherent motion. To further improve texture consistency during object movement, we propose a Test-Time Texture Consistency Optimization (TTCO) technique that adapts text and feature embeddings based on pixel correspondences from the simulator. Comprehensive experiments demonstrate that PSIVG produces videos that better adhere to real-world physics while preserving visual quality and diversity. Project Page: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
PDF41March 10, 2026