PhysRVG: Aprendizado por Reforço Unificado com Consciência Física para Modelos Gerativos de Vídeo

Resumo

Os princípios físicos são fundamentais para a simulação visual realista, mas continuam sendo uma omissão significativa na geração de vídeos baseada em transformers. Essa lacuna evidencia uma limitação crítica na renderização do movimento de corpos rígidos, um princípio fundamental da mecânica clássica. Embora a computação gráfica e os simuladores baseados em física possam modelar facilmente tais colisões usando as fórmulas de Newton, os paradigmas modernos de pré-treinamento e ajuste fino descartam o conceito de rigidez corporal durante a desruídos global em nível de pixel. Até mesmo restrições matemáticas perfeitamente corretas são tratadas como soluções subótimas (ou seja, condições) durante a otimização do modelo no pós-treinamento, limitando fundamentalmente o realismo físico dos vídeos gerados. Motivados por essas considerações, introduzimos, pela primeira vez, um paradigma de aprendizagem por reforço com consciência física para modelos de geração de vídeo que aplica regras de colisão física diretamente em espaços de alta dimensão, garantindo que o conhecimento físico seja estritamente aplicado em vez de tratado como condição. Posteriormente, estendemos este paradigma para uma estrutura unificada, denominada Ciclo de Mímica-Descoberta (MDcycle), que permite um ajuste fino substancial enquanto preserva totalmente a capacidade do modelo de alavancar *feedback* baseado em física. Para validar nossa abordagem, construímos um novo benchmark, o PhysRVGBench, e realizamos extensos experimentos qualitativos e quantitativos para avaliar minuciosamente sua eficácia.

English

Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.

PhysRVG: Aprendizado por Reforço Unificado com Consciência Física para Modelos Gerativos de Vídeo

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Resumo

Support