물리 시뮬레이터 인더루프 영상 생성
Physical Simulator In-the-Loop Video Generation
March 6, 2026
저자: Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt
cs.AI
초록
확산 모델 기반 비디오 생성 기술의 최근 발전은 놀라운 시각적 현실감을 달성했지만, 여전히 중력, 관성, 충돌과 같은 기본 물리 법칙을 따르는 데 어려움을 겪고 있습니다. 생성된 객체는 프레임 간 일관성 없는 움직임을 보이거나, 비현실적인 역학을 나타내거나, 물리적 제약을 위반하는 경우가 많아 AI 생성 비디오의 현실감과 신뢰성을 제한합니다. 본 연구에서는 이러한 격차를 해결하기 위해 물리 시뮬레이터를 비디오 확산 과정에 통합한 새로운 프레임워크인 PSIVG(Physical Simulator In-the-loop Video Generation)를 제안합니다. PSIVG는 사전 학습된 확산 모델로 생성된 템플릿 비디오를 시작점으로 4D 장면 및 전경 객체 메쉬를 재구성하고, 이를 물리 시뮬레이터 내에서 초기화한 후 물리적으로 일관된 궤적을 생성합니다. 이러한 시뮬레이션된 궤적은 비디오 생성기가 시공간적으로 물리적으로 일관된 운동을 생성하도록 유도하는 데 사용됩니다. 또한 객체 이동 중 텍스처 일관성을 더욱 개선하기 위해, 시뮬레이터의 픽셀 대응 관계를 기반으로 텍스트 및 특징 임베딩을 조정하는 TTCO(Test-Time Texture Consistency Optimization) 기법을 제안합니다. 포괄적인 실험을 통해 PSIVG가 시각적 품질과 다양성을 유지하면서 현실 세계의 물리 법칙을 더 잘 준수하는 비디오를 생성함을 입증합니다. 프로젝트 페이지: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
English
Recent advances in diffusion-based video generation have achieved remarkable visual realism but still struggle to obey basic physical laws such as gravity, inertia, and collision. Generated objects often move inconsistently across frames, exhibit implausible dynamics, or violate physical constraints, limiting the realism and reliability of AI-generated videos. We address this gap by introducing Physical Simulator In-the-loop Video Generation (PSIVG), a novel framework that integrates a physical simulator into the video diffusion process. Starting from a template video generated by a pre-trained diffusion model, PSIVG reconstructs the 4D scene and foreground object meshes, initializes them within a physical simulator, and generates physically consistent trajectories. These simulated trajectories are then used to guide the video generator toward spatio-temporally physically coherent motion. To further improve texture consistency during object movement, we propose a Test-Time Texture Consistency Optimization (TTCO) technique that adapts text and feature embeddings based on pixel correspondences from the simulator. Comprehensive experiments demonstrate that PSIVG produces videos that better adhere to real-world physics while preserving visual quality and diversity. Project Page: https://vcai.mpi-inf.mpg.de/projects/PSIVG/