PhysRVG: 물리 인식 통합 강화 학습 기반 비디오 생성 모델
PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models
January 16, 2026
저자: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI
초록
물리 법칙은 사실적인 시각 시뮬레이션의 기초이지만, 트랜스포머 기반 비디오 생성에서는 여전히 상당한 간과 영역으로 남아 있습니다. 이러한 격차는 고전 역학의 핵심 원리인 강체 운동 렌더링에서 중요한 한계를 부각시킵니다. 컴퓨터 그래픽스와 물리 기반 시뮬레이터는 뉴턴 공식을 사용하여 이러한 충돌을 쉽게 모델링할 수 있지만, 현대의 사전 학습-미세 조정 패러다임은 픽셀 수준의 전역 노이즈 제거 과정에서 객체 강성 개념을 버립니다. 훈련 후 모델 최적화 과정에서 수학적으로 완벽하게 정확한 제약 조건조차도 차선책 해법(즉, 조건)으로 취급되어, 생성된 비디오의 물리적 현실감을 근본적으로 제한합니다. 이러한 고찰에 동기를 부여받아, 우리는 물리 지식을 조건으로 취급하기보다 엄격하게 적용하도록 보장하는, 고차원 공간에서 직접 물리적 충돌 규칙을 강제하는 비디오 생성 모델을 위한 물리 인식 강화 학습 패러다임을 최초로 제안합니다. 이후 우리는 이 패러다임을 Mimicry-Discovery Cycle (MDcycle)이라는 통합 프레임워크로 확장하여, 모델의 물리 기반 피드백 활용 능력을 완전히 보존하면서도 상당한 수준의 미세 조정을 가능하게 합니다. 우리의 접근법을 검증하기 위해 새로운 벤치마크 PhysRVGBench을 구축하고, 그 효과를 철저히 평가하기 위한 방대한 정성 및 정량 실험을 수행합니다.
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.