Physikalischer Simulator-in-the-Loop Videogenerierung

Zusammenfassung

Jüngste Fortschritte bei der diffusionsbasierten Videogenerierung haben eine bemerkenswerte visuelle Realitätstreue erreicht, haben jedoch nach wie vor Schwierigkeiten, grundlegende physikalische Gesetze wie Schwerkraft, Trägheit und Kollisionen einzuhalten. Generierte Objekte bewegen sich oft inkonsistent über Einzelbilder hinweg, weisen unplausible Dynamiken auf oder verletzen physikalische Randbedingungen, was den Realismus und die Zuverlässigkeit KI-generierter Videos einschränkt. Wir schließen diese Lücke durch die Einführung von "Physical Simulator In-the-loop Video Generation" (PSIVG), einem neuartigen Framework, das einen Physiksimulator in den Diffusionsprozess für Videos integriert. Ausgehend von einem durch ein vortrainiertes Diffusionsmodell generierten Template-Video rekonstruiert PSIVG die 4D-Szene und Vordergrundobjekt-Meshes, initialisiert diese in einem Physiksimulator und erzeugt physikalisch konsistente Trajektorien. Diese simulierten Trajektorien werden anschließend genutzt, um den Videogenerator in Richtung einer räumlich-zeitlich physikalisch kohärenten Bewegung zu steuern. Um zudem die Texturkonsistenz während der Objektbewegung zu verbessern, schlagen wir eine "Test-Time Texture Consistency Optimization" (TTCO) vor, eine Technik, die Text- und Feature-Embeddings auf Basis von Pixelkorrespondenzen aus dem Simulator anpasst. Umfassende Experimente belegen, dass PSIVG Videos erzeugt, die sich besser an die Physik der realen Welt halten und dabei die visuelle Qualität und Vielfalt bewahren. Projektseite: https://vcai.mpi-inf.mpg.de/projects/PSIVG/

English

Recent advances in diffusion-based video generation have achieved remarkable visual realism but still struggle to obey basic physical laws such as gravity, inertia, and collision. Generated objects often move inconsistently across frames, exhibit implausible dynamics, or violate physical constraints, limiting the realism and reliability of AI-generated videos. We address this gap by introducing Physical Simulator In-the-loop Video Generation (PSIVG), a novel framework that integrates a physical simulator into the video diffusion process. Starting from a template video generated by a pre-trained diffusion model, PSIVG reconstructs the 4D scene and foreground object meshes, initializes them within a physical simulator, and generates physically consistent trajectories. These simulated trajectories are then used to guide the video generator toward spatio-temporally physically coherent motion. To further improve texture consistency during object movement, we propose a Test-Time Texture Consistency Optimization (TTCO) technique that adapts text and feature embeddings based on pixel correspondences from the simulator. Comprehensive experiments demonstrate that PSIVG produces videos that better adhere to real-world physics while preserving visual quality and diversity. Project Page: https://vcai.mpi-inf.mpg.de/projects/PSIVG/

Physikalischer Simulator-in-the-Loop Videogenerierung

Physical Simulator In-the-Loop Video Generation

Zusammenfassung

Support