ChatPaper.aiChatPaper

물리적으로 타당한 비디오 생성을 위한 VLM 기반 계획 접근법

Towards Physically Plausible Video Generation via VLM Planning

March 30, 2025
저자: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI

초록

비디오 확산 모델(VDMs)은 최근 몇 년 동안 크게 발전하여 매우 사실적인 비디오 생성을 가능하게 했으며, 세계 시뮬레이터로서의 잠재력으로 인해 커뮤니티의 관심을 끌고 있습니다. 그러나 이러한 능력에도 불구하고, VDMs는 물리학에 대한 이해가 부족하여 종종 물리적으로 타당하지 않은 비디오를 생성하며, 이는 잘못된 역학 및 이벤트 시퀀스로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 물리학을 명시적으로 통합한 새로운 2단계 이미지-투-비디오 생성 프레임워크를 제안합니다. 첫 번째 단계에서는 비전 언어 모델(VLM)을 거친 수준의 모션 플래너로 사용하여, 사고의 연쇄 및 물리학 인식 추론을 통합하여 실제 세계의 물리적 역학을 근사화하는 대략적인 모션 궤적/변화를 예측함과 동시에 프레임 간 일관성을 보장합니다. 두 번째 단계에서는 예측된 모션 궤적/변화를 사용하여 VDM의 비디오 생성을 안내합니다. 예측된 모션 궤적/변화가 대략적이기 때문에, 추론 과정에서 노이즈를 추가하여 VDM이 더 세부적인 모션을 생성할 수 있는 자유를 제공합니다. 광범위한 실험 결과는 우리의 프레임워크가 물리적으로 타당한 모션을 생성할 수 있음을 보여주며, 비교 평가는 우리의 접근 방식이 기존 방법들보다 뛰어남을 강조합니다. 더 많은 비디오 결과는 우리의 프로젝트 페이지에서 확인할 수 있습니다: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Summary

AI-Generated Summary

PDF393April 3, 2025