PhysRVG: 物理学を考慮したビデオ生成モデルのための統合強化学習
PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models
January 16, 2026
著者: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI
要旨
物理法則は写実的な視覚シミュレーションの基盤であるが、トランスフォーマーに基づく映像生成において依然として重要な見落としとなっている。この隔たりは、古典力学の核心的原理である剛体運動の描画における重大な限界を浮き彫りにしている。コンピュータグラフィックスや物理ベースのシミュレータはニュートンの公式を用いて容易に这类の衝突をモデル化できる一方、現代的な事前学習-微調整パラダイムは、画素レベルの大域的ノイズ除去過程で物体の剛性という概念を捨象している。数学的に完全に正しい制約でさえ、学習後最適化におけるモデル最適化の過程では準最適解(すなわち条件付き解)として扱われ、生成映像の物理的なリアリズムを根本的に制限している。これらの問題意識に動機づけられ、本研究では初めて、物理衝突則を高次元空間で直接強制し、物理知識が条件として扱われるのではなく厳密に適用されることを保証する、映像生成モデルのための物理認識強化学習パラダイムを提案する。続いて、このパラダイムを Mimicry-Discovery Cycle(MDcycle)と名付けた統一フレームワークに拡張し、物理に基づいたフィードバックを活用するモデルの能力を完全に保持したまま、実質的な微調整を可能にする。提案手法を検証するため、新たなベンチマーク PhysRVGBench を構築し、その有効性を徹底的に評価するため広範な定性・定量実験を実施する。
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.