ChatPaper.aiChatPaper

PhyRPR: Trainingsfreie physikbasierte Videogenerierung

PhyRPR: Training-Free Physics-Constrained Video Generation

January 14, 2026
papers.authors: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu
cs.AI

papers.abstract

Aktuelle diffusionsbasierte Videogenerierungsmodelle können visuell plausible Videos synthetisieren, haben jedoch oft Schwierigkeiten, physikalische Randbedingungen zu erfüllen. Ein Hauptgrund dafür ist, dass die meisten bestehenden Ansätze einstufig bleiben: Sie vermengen das hochlevelige physikalische Verständnis mit der niederleveligen visuellen Synthese, was die Erzeugung von Inhalten erschwert, die explizite physikalische Schlussfolgerungen erfordern. Um diese Einschränkung zu adressieren, schlagen wir eine trainierungsfreie dreistufige Pipeline vor, PhyRPR: PhyReason–PhyPlan–PhyRefine, die das physikalische Verständnis von der visuellen Synthese entkoppelt. Konkret nutzt PhyReason ein großes multimodales Modell zur physikalischen Zustandsableitung und einen Bildgenerator zur Synthese von Keyframes; PhyPlan erzeugt deterministisch ein steuerbares grobes Bewegungsskelett; und PhyRefine injiziert dieses Skelett mittels einer Latent-Fusion-Strategie in das Diffusions-Sampling, um die Darstellung zu verfeinern und gleichzeitig die geplanten Dynamiken beizubehalten. Dieser abgestufte Entwurf ermöglicht eine explizite physikalische Steuerung während der Generierung. Umfangreiche Experimente unter physikalischen Randbedingungen zeigen, dass unsere Methode durchgängig die physikalische Plausibilität und Bewegungssteuerbarkeit verbessert.
English
Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,PhyRPR:Phy\uline{Reason}--Phy\uline{Plan}--Phy\uline{Refine}, which decouples physical understanding from visual synthesis. Specifically, PhyReason uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; PhyPlan deterministically synthesizes a controllable coarse motion scaffold; and PhyRefine injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.
PDF12January 20, 2026