PhyRPR: Generazione di Video Vincolati dalla Fisica Senza Addestramento
PhyRPR: Training-Free Physics-Constrained Video Generation
January 14, 2026
Autori: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu
cs.AI
Abstract
I recenti modelli di generazione video basati su diffusion sintetizzano video visivamente plausibili, ma spesso faticano a soddisfare i vincoli fisici. Una ragione fondamentale è che la maggior parte degli approcci esistenti rimane a stadio singolo: essi intrecciano la comprensione fisica di alto livello con la sintesi visiva di basso livello, rendendo difficile generare contenuti che richiedono un ragionamento fisico esplicito. Per superare questa limitazione, proponiamo una pipeline a tre stadi senza fase di addestramento, PhyRPR: PhyReason–PhyPlan–PhyRefine, che disaccoppia la comprensione fisica dalla sintesi visiva. Nello specifico, PhyReason utilizza un modello multimodale di grandi dimensioni per il ragionamento sullo stato fisico e un generatore di immagini per la sintesi dei fotogrammi chiave; PhyPlan sintetizza deterministicamente un'impalcatura di movimento grossolano e controllabile; e PhyRefine inietta questa impalcatura nel campionamento diffusion attraverso una strategia di fusione latente per affinare l'aspetto preservando le dinamiche pianificate. Questo design a stadi consente un controllo fisico esplicito durante la generazione. Esperimenti estensivi con vincoli fisici dimostrano che il nostro metodo migliora costantemente la plausibilità fisica e la controllabilità del movimento.
English
Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,PhyRPR:Phy\uline{Reason}--Phy\uline{Plan}--Phy\uline{Refine}, which decouples physical understanding from visual synthesis. Specifically, PhyReason uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; PhyPlan deterministically synthesizes a controllable coarse motion scaffold; and PhyRefine injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.