ChatPaper.aiChatPaper

PhysRVG : Apprentissage par Renforcement Unifié Conscient de la Physique pour les Modèles Génératifs de Vidéos

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

January 16, 2026
papers.authors: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI

papers.abstract

Les principes physiques sont fondamentaux pour la simulation visuelle réaliste, mais restent une lacune significative dans la génération vidéo basée sur les transformers. Cet écart souligne une limitation critique dans le rendu du mouvement des corps rigides, principe fondamental de la mécanique classique. Alors que l'infographie et les simulateurs physiques peuvent facilement modéliser ces collisions à l'aide des formules newtoniennes, les paradigmes modernes de pré-entraînement et de réglage fin abandonnent la notion de rigidité des objets lors du débruîtage global au niveau pixel. Même les contraintes mathématiques parfaitement exactes sont traitées comme des solutions sous-optimales (c'est-à-dire des conditions) lors de l'optimisation du modèle en post-formation, limitant fondamentalement le réalisme physique des vidéos générées. Motivés par ces considérations, nous introduisons pour la première fois un paradigme d'apprentissage par renforcement conscient de la physique pour les modèles de génération vidéo, qui impose les règles de collision physique directement dans les espaces de haute dimension, garantissant que les connaissances physiques sont strictement appliquées plutôt que traitées comme des conditions. Par la suite, nous étendons ce paradigme à un cadre unifié, nommé Cycle Imitation-Découverte (MDcycle), qui permet un réglage fin substantiel tout en préservant intégralement la capacité du modèle à exploiter les retours fondés sur la physique. Pour valider notre approche, nous construisons un nouveau benchmark PhysRVGBench et réalisons des expériences qualitatives et quantitatives approfondies afin d'évaluer minutieusement son efficacité.
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.
PDF42January 20, 2026