ChatPaper.aiChatPaper

物理的に妥当なビデオ生成に向けて:VLMプランニングによるアプローチ

Towards Physically Plausible Video Generation via VLM Planning

March 30, 2025
著者: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI

要旨

近年、ビデオ拡散モデル(VDM)は大きく進歩し、非常にリアルなビデオの生成を可能にし、世界シミュレーターとしての潜在能力にコミュニティの注目を集めています。しかし、その能力にもかかわらず、VDMは物理的な理解の欠如により、しばしば物理的に妥当なビデオを生成できず、誤ったダイナミクスやイベントシーケンスを生み出します。この制限を解決するため、我々は物理を明示的に組み込んだ新しい2段階の画像からビデオ生成フレームワークを提案します。第1段階では、ビジョン言語モデル(VLM)を粗いモーションプランナーとして使用し、連鎖思考と物理を意識した推論を統合して、現実世界の物理的ダイナミクスを近似しつつフレーム間の一貫性を保証する粗いモーション軌道/変化を予測します。第2段階では、予測されたモーション軌道/変化を使用してVDMのビデオ生成をガイドします。予測されたモーション軌道/変化は粗いため、推論中にノイズを加えて、VDMがより細かい詳細を持つモーションを生成する自由度を提供します。広範な実験結果は、我々のフレームワークが物理的に妥当なモーションを生成できることを示し、比較評価は我々のアプローチが既存の方法を大きく上回ることを強調しています。より多くのビデオ結果はプロジェクトページでご覧いただけます:https://madaoer.github.io/projects/physically_plausible_video_generation。
English
Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Summary

AI-Generated Summary

PDF393April 3, 2025