PhyRPR: 学習不要の物理制約付きビデオ生成
PhyRPR: Training-Free Physics-Constrained Video Generation
January 14, 2026
著者: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu
cs.AI
要旨
近年の拡散ベースの動画生成モデルは視覚的に妥当な動画を合成できるが、物理的制約を満たすことに課題がある。主な理由は、既存手法の多くが単段階である点にある。すなわち、高次元の物理理解と低次元の視覚合成を混在させるため、明示的な物理推論を要するコンテンツの生成が困難なのである。この課題を解決するため、我々は学習不要な三段階パイプライン「PhyRPR:物理推論(PhyReason)―物理計画(PhyPlan)―物理洗練(PhyRefine)」を提案する。本手法は物理理解と視覚合成を分離する。具体的には、PhyReasonは大規模マルチモーダルモデルによる物理状態の推論と画像生成器によるキーフレーム合成を担当し、PhyPlanは制御可能な粗い動きの骨組みを確定的に合成し、PhyRefineは潜在空間融合戦略によりこの骨組みを拡散サンプリングに注入し、計画された動力学を保持しながら外観を洗練する。この段階的設計により、生成過程で明示的な物理制御が可能となる。物理制約下での大規模実験により、本手法が物理的妥当性と動作制御性を一貫して向上させることを実証した。
English
Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,PhyRPR:Phy\uline{Reason}--Phy\uline{Plan}--Phy\uline{Refine}, which decouples physical understanding from visual synthesis. Specifically, PhyReason uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; PhyPlan deterministically synthesizes a controllable coarse motion scaffold; and PhyRefine injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.