Generación de Vídeo con Simulador Físico en el Bucle
Physical Simulator In-the-Loop Video Generation
March 6, 2026
Autores: Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt
cs.AI
Resumen
Los recientes avances en generación de vídeo basada en difusión han logrado un realismo visual notable, pero aún presentan dificultades para obedecer leyes físicas básicas como la gravedad, la inercia y las colisiones. Los objetos generados a menudo se mueven de manera inconsistente entre fotogramas, exhiben dinámicas implausibles o violan restricciones físicas, lo que limita el realismo y la fiabilidad de los vídeos generados por IA. Abordamos esta brecha presentando PSIVG (Physical Simulator In-the-loop Video Generation), un marco novedoso que integra un simulador físico en el proceso de difusión de vídeo. Partiendo de un vídeo plantilla generado por un modelo de difusión preentrenado, PSIVG reconstruye la escena 4D y las mallas de objetos en primer plano, las inicializa dentro de un simulador físico y genera trayectorias físicamente consistentes. Estas trayectorias simuladas se utilizan luego para guiar al generador de vídeo hacia un movimiento espaciotemporalmente coherente desde el punto de vista físico. Para mejorar aún más la consistencia textural durante el movimiento de los objetos, proponemos una técnica de Optimización de Consistencia Textural en Tiempo de Prueba (TTCO) que adapta los embeddings de texto y características basándose en correspondencias de píxeles del simulador. Experimentos exhaustivos demuestran que PSIVG produce vídeos que se adhieren mejor a la física del mundo real, preservando al mismo tiempo la calidad visual y la diversidad. Página del proyecto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
English
Recent advances in diffusion-based video generation have achieved remarkable visual realism but still struggle to obey basic physical laws such as gravity, inertia, and collision. Generated objects often move inconsistently across frames, exhibit implausible dynamics, or violate physical constraints, limiting the realism and reliability of AI-generated videos. We address this gap by introducing Physical Simulator In-the-loop Video Generation (PSIVG), a novel framework that integrates a physical simulator into the video diffusion process. Starting from a template video generated by a pre-trained diffusion model, PSIVG reconstructs the 4D scene and foreground object meshes, initializes them within a physical simulator, and generates physically consistent trajectories. These simulated trajectories are then used to guide the video generator toward spatio-temporally physically coherent motion. To further improve texture consistency during object movement, we propose a Test-Time Texture Consistency Optimization (TTCO) technique that adapts text and feature embeddings based on pixel correspondences from the simulator. Comprehensive experiments demonstrate that PSIVG produces videos that better adhere to real-world physics while preserving visual quality and diversity. Project Page: https://vcai.mpi-inf.mpg.de/projects/PSIVG/