物理シミュレータインザループ動画生成
Physical Simulator In-the-Loop Video Generation
March 6, 2026
著者: Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt
cs.AI
要旨
拡散モデルに基づくビデオ生成技術は近年著しい進歩を遂げ、視覚的なリアリズムを大幅に向上させてきた。しかしながら、重力、慣性、衝突といった基本的な物理法則に従った生成には依然として課題が残る。生成されたオブジェクトはフレーム間で不自然に動いたり、非現実的な動態を示したり、物理的制約に違反したりすることが多く、AI生成ビデオのリアリズムと信頼性を制限している。本研究では、この課題を解決するため、物理シミュレータをビデオ拡散プロセスに組み込んだ新規フレームワーク「Physical Simulator In-the-loop Video Generation (PSIVG)」を提案する。PSIVGは、事前学習済み拡散モデルによって生成されたテンプレートビデオを出発点とし、4Dシーンと前景オブジェクトのメッシュを再構築し、物理シミュレータ内でそれらを初期化した後、物理的に一貫した軌道を生成する。これらのシミュレーション軌道は、ビデオ生成器を時空間的に物理的に整合性の高い動きへ導くために用いられる。さらに、オブジェクト移動中のテクスチャ一貫性を改善するため、シミュレータからのピクセル対応関係に基づいてテキスト及び特徴量の埋め込みを適応させるTest-Time Texture Consistency Optimization (TTCO)技術を提案する。包括的な実験により、PSIVGが視覚的品質と多様性を維持しつつ、現実世界の物理法則により忠実なビデオを生成することを実証する。プロジェクトページ: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
English
Recent advances in diffusion-based video generation have achieved remarkable visual realism but still struggle to obey basic physical laws such as gravity, inertia, and collision. Generated objects often move inconsistently across frames, exhibit implausible dynamics, or violate physical constraints, limiting the realism and reliability of AI-generated videos. We address this gap by introducing Physical Simulator In-the-loop Video Generation (PSIVG), a novel framework that integrates a physical simulator into the video diffusion process. Starting from a template video generated by a pre-trained diffusion model, PSIVG reconstructs the 4D scene and foreground object meshes, initializes them within a physical simulator, and generates physically consistent trajectories. These simulated trajectories are then used to guide the video generator toward spatio-temporally physically coherent motion. To further improve texture consistency during object movement, we propose a Test-Time Texture Consistency Optimization (TTCO) technique that adapts text and feature embeddings based on pixel correspondences from the simulator. Comprehensive experiments demonstrate that PSIVG produces videos that better adhere to real-world physics while preserving visual quality and diversity. Project Page: https://vcai.mpi-inf.mpg.de/projects/PSIVG/