PhysChoreo: 部分認識的意味的接地による物理制御可能な映像生成
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding
November 25, 2025
著者: Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
cs.AI
要旨
近年のビデオ生成モデルは視覚的な忠実度において著しい進歩を遂げているが、明示的な物理的な制御性と妥当性に欠けることが多い。この課題に対処するため、物理学ベースのレンダリングを用いてビデオ生成を誘導する試みがなされてきた。しかし、既存手法は複雑な物理特性の正確なモデル化や、長時間シーケンスにおける物理挙動の効果的な制御において本質的な困難に直面している。本研究では、単一画像から多様な制御性と物理的現実性を備えたビデオを生成する新規フレームワーク「PhysChoreo」を提案する。本手法は二段階の処理から構成される:まず、部分認識型物理特性再構成により画像内の全オブジェクトの静的初期物理特性を推定する。次に、時間指示付き物理編集可能シミュレーションを通じて、豊富な動的挙動と物理的現実性を備えた高品質なビデオを合成する。実験結果により、PhysChoreoが豊富な挙動と物理的現実性を備えたビデオを生成可能であり、複数の評価指標において既存の最先端手法を凌駕することを示す。
English
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.