PhysRVG: Aprendizaje por Refuerzo Unificado Consciente de la Física para Modelos Generativos de Video
PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models
January 16, 2026
Autores: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI
Resumen
Los principios físicos son fundamentales para la simulación visual realista, pero siguen siendo una omisión significativa en la generación de vídeos basada en transformadores. Esta brecha subraya una limitación crítica en la representación del movimiento de cuerpos rígidos, un pilar de la mecánica clásica. Mientras que la gráfica por computador y los simuladores basados en física pueden modelar fácilmente dichas colisiones utilizando las fórmulas de Newton, los paradigmas modernos de preentrenamiento-ajuste descartan el concepto de rigidez corporal durante la eliminación de ruido global a nivel de píxel. Incluso las restricciones matemáticas perfectamente correctas son tratadas como soluciones subóptimas (es decir, como condiciones) durante la optimización del modelo posterior al entrenamiento, limitando fundamentalmente el realismo físico de los vídeos generados. Motivados por estas consideraciones, introducimos, por primera vez, un paradigma de aprendizaje por refuerzo consciente de la física para modelos de generación de vídeo que aplica las reglas de colisión física directamente en espacios de alta dimensionalidad, garantizando que el conocimiento físico se aplique de manera estricta en lugar de tratarse como condiciones. Posteriormente, extendemos este paradigma a un marco unificado, denominado Ciclo de Mímesis-Descubrimiento (MDcycle), que permite un ajuste sustancial mientras preserva completamente la capacidad del modelo para aprovechar la retroalimentación basada en la física. Para validar nuestro enfoque, construimos un nuevo benchmark, PhysRVGBench, y realizamos extensos experimentos cualitativos y cuantitativos para evaluar exhaustivamente su eficacia.
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.