PhyRPR: 물리 법칙이 적용되는 학습 없이 생성하는 비디오 생성 기술
PhyRPR: Training-Free Physics-Constrained Video Generation
January 14, 2026
저자: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu
cs.AI
초록
최근의 확산 기반 비디오 생성 모델은 시각적으로 그럴듯한 비디오를 합성할 수 있지만, 종종 물리적 제약 조건을 충족시키지 못하는 경우가 많습니다. 핵심적인 이유는 대부분의 기존 접근법이 단일 단계로 구성되어 있어, 높은 수준의 물리적 이해와 낮은 수준의 시각적 합성을 뒤엉키게 하여 명시적인 물리적 추론이 필요한 콘텐츠 생성에 어려움을 겪기 때문입니다. 이러한 한계를 해결하기 위해 우리는 물리적 이해와 시각적 합성을 분리하는 학습이 필요 없는 3단계 파이프라인인 PhyRPR(PhyReason-PhyPlan-PhyRefine)을 제안합니다. 구체적으로, PhyReason은 물리적 상태 추론을 위해 대규모 멀티모달 모델을, 키프레임 합성을 위해 이미지 생성기를 사용합니다. PhyPlan은 제어 가능한 조악한 동작 골격을 결정론적으로 합성하며, PhyRefine은 이 골격을 잠재 공간 융합 전략을 통해 확산 샘플링에 주입하여 계획된 역학을 보존하면서 외관을 정제합니다. 이러한 단계적 설계는 생성 과정 중 명시적인 물리적 제어를 가능하게 합니다. 물리적 제약 조건 하에서의 광범위한 실험을 통해 우리의 방법이 물리적 타당성과 동작 제어성을 지속적으로 향상시킴을 확인했습니다.
English
Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,PhyRPR:Phy\uline{Reason}--Phy\uline{Plan}--Phy\uline{Refine}, which decouples physical understanding from visual synthesis. Specifically, PhyReason uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; PhyPlan deterministically synthesizes a controllable coarse motion scaffold; and PhyRefine injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.