PhyRPR: Беспоисковое создание видео с физическими ограничениями
PhyRPR: Training-Free Physics-Constrained Video Generation
January 14, 2026
Авторы: Yibo Zhao, Hengjia Li, Xiaofei He, Boxi Wu
cs.AI
Аннотация
Современные диффузионные модели генерации видео способны синтезировать визуально правдоподобные ролики, однако зачастую не удовлетворяют физическим ограничениям. Ключевая причина заключается в том, что большинство существующих подходов остаются одноэтапными: они совмещают высокоуровневое физическое понимание с низкоуровневым визуальным синтезом, что затрудняет генерацию контента, требующего явного физического обоснования. Для преодоления этого ограничения мы предлагаем не требующий обучения трехэтапный конвейер PhyRPR: PhyReason — PhyPlan — PhyRefine, который разделяет физическое понимание и визуальный синтез. Конкретно, PhyReason использует крупную мультимодальную модель для анализа физического состояния и генератор изображений для синтеза ключевых кадров; PhyPlan детерминированно создает управляемый каркас грубого движения; а PhyRefine внедряет этот каркас в процесс диффузионной выборки через стратегию латентного слияния для уточнения внешнего вида при сохранении запланированной динамики. Такое поэтапное проектирование обеспечивает явный физический контроль в процессе генерации. Многочисленные эксперименты в условиях физических ограничений демонстрируют, что наш метод последовательно улучшает физическую правдоподобность и управляемость движения.
English
Recent diffusion-based video generation models can synthesize visually plausible videos, yet they often struggle to satisfy physical constraints. A key reason is that most existing approaches remain single-stage: they entangle high-level physical understanding with low-level visual synthesis, making it hard to generate content that require explicit physical reasoning. To address this limitation, we propose a training-free three-stage pipeline,PhyRPR:Phy\uline{Reason}--Phy\uline{Plan}--Phy\uline{Refine}, which decouples physical understanding from visual synthesis. Specifically, PhyReason uses a large multimodal model for physical state reasoning and an image generator for keyframe synthesis; PhyPlan deterministically synthesizes a controllable coarse motion scaffold; and PhyRefine injects this scaffold into diffusion sampling via a latent fusion strategy to refine appearance while preserving the planned dynamics. This staged design enables explicit physical control during generation. Extensive experiments under physics constraints show that our method consistently improves physical plausibility and motion controllability.