PhysRVG: Physikbewusstes vereinheitlichtes Reinforcement Learning für videogenerative Modelle
PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models
January 16, 2026
papers.authors: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI
papers.abstract
Physikalische Grundsätze sind für realistische visuelle Simulationen fundamental, stellen jedoch nach wie vor eine wesentliche Vernachlässigung in der transformerbasierten Videogenerierung dar. Diese Lücke verdeutlicht eine entscheidende Einschränkung bei der Darstellung starrer Körperbewegungen, einem Kernprinzip der klassischen Mechanik. Während Computergrafik und physikbasierte Simulatoren solche Kollisionen problemlos mittels Newtonscher Formeln modellieren können, verwerfen moderne Pre-train-Fine-tune-Paradigmen das Konzept der Starrkörperphysik während der pixelbasierten globalen Entrauschung. Selbst mathematisch exakte Randbedingungen werden während der Modelloptimierung im Post-Training als suboptimale Lösungen (d.h. als Nebenbedingungen) behandelt, was den physikalischen Realismus generierter Videos grundlegend einschränkt. Angeregt durch diese Überlegungen führen wir erstmalig ein physikbewusstes Reinforcement-Learning-Paradigma für Videogenerierungsmodelle ein, das physikalische Kollisionsregeln direkt in hochdimensionalen Räumen durchsetzt und so gewährleistet, dass physikalisches Wissen strikt angewendet statt als bloße Nebenbedingung behandelt wird. Darauf aufbauend erweitern wir dieses Paradigma zu einem einheitlichen Rahmenwerk, dem sogenannten Mimicry-Discovery Cycle (MDcycle), das eine substanzielle Feinjustierung ermöglicht, während die Fähigkeit des Modells zur Nutzung physikalisch fundierter Rückmeldungen vollständig erhalten bleibt. Um unseren Ansatz zu validieren, entwickeln wir den neuen Benchmark PhysRVGBench und führen umfangreiche qualitative sowie quantitative Experimente durch, um dessen Wirksamkeit eingehend zu bewerten.
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.