ChatPaper.aiChatPaper

PhysRVG: Единое обучение с подкреплением с учетом физики для моделей генерации видео

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

January 16, 2026
Авторы: Qiyuan Zhang, Biao Gong, Shuai Tan, Zheng Zhang, Yujun Shen, Xing Zhu, Yuyuan Li, Kelu Yao, Chunhua Shen, Changqing Zou
cs.AI

Аннотация

Физические принципы являются основой реалистичного визуального моделирования, однако остаются серьезным упущением в трансформерных методах генерации видео. Этот пробел выявляет ключевое ограничение при воспроизведении движения твердых тел — фундаментального понятия классической механики. В то время как компьютерная графика и физические симуляторы легко моделируют такие столкновения с помощью формул Ньютона, современные парадигмы предварительного обучения и тонкой настройки игнорируют концепцию жесткости объектов в процессе глобального поэксельного шумоподавления. Даже математически корректные ограничения трактуются как субоптимальные решения (т.е. условия) при оптимизации модели после обучения, что принципиально ограничивает физическую достоверность генерируемых видео. Мотивированные этими соображениями, мы впервые предлагаем парадигму обучения с подкреплением с учетом физики для моделей генерации видео, которая обеспечивает прямое применение правил столкновений в высокоразмерных пространствах, гарантируя строгое соблюдение физических законов вместо их трактовки как условий. В дальнейшем мы расширяем эту парадигму до унифицированного фреймворка, названного Циклом Подражания-Открытия (MDcycle), который позволяет проводить значительную тонкую настройку, полностью сохраняя способность модели использовать физически обоснованную обратную связь. Для проверки нашего подхода мы создали новый бенчмарк PhysRVGBench и провели обширные качественные и количественные эксперименты для всесторонней оценки его эффективности.
English
Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.
PDF42January 20, 2026