PhysRVG: Apprendimento per Rinforzo Unificato Consapevole della Fisica per Modelli Generativi Video

Abstract

I principi fisici sono fondamentali per una simulazione visiva realistica, ma rimangono una significativa lacuna nella generazione di video basata su trasformatori. Questo divario evidenzia una limitazione critica nel rendering del moto dei corpi rigidi, un principio cardine della meccanica classica. Sebbene la computer grafica e i simulatori basati sulla fisica possano modellare facilmente tali collisioni utilizzando le formule di Newton, i moderni paradigmi di pre-addestramento e messa a punto scartano il concetto di rigidità degli oggetti durante la denoising globale a livello di pixel. Anche vincoli matematici perfettamente corretti vengono trattati come soluzioni subottimali (ovvero condizioni) durante l'ottimizzazione del modello post-addestramento, limitando fondamentalmente il realismo fisico dei video generati. Motivati da queste considerazioni, introduciamo per la prima volta un paradigma di apprendimento per rinforzo consapevole della fisica per modelli di generazione video, che applica direttamente le regole delle collisioni fisiche in spazi ad alta dimensionalità, garantendo che la conoscenza fisica sia rigorosamente applicata piuttosto che trattata come condizione. Successivamente, estendiamo questo paradigma a un framework unificato, denominato Ciclo di Imitazione-Scoperta (MDcycle), che consente un'ampia messa a punto preservando pienamente la capacità del modello di sfruttare feedback basati sulla fisica. Per convalidare il nostro approccio, costruiamo un nuovo benchmark, PhysRVGBench, ed eseguiamo ampi esperimenti qualitativi e quantitativi per valutarne approfonditamente l'efficacia.

English

Physical principles are fundamental to realistic visual simulation, but remain a significant oversight in transformer-based video generation. This gap highlights a critical limitation in rendering rigid body motion, a core tenet of classical mechanics. While computer graphics and physics-based simulators can easily model such collisions using Newton formulas, modern pretrain-finetune paradigms discard the concept of object rigidity during pixel-level global denoising. Even perfectly correct mathematical constraints are treated as suboptimal solutions (i.e., conditions) during model optimization in post-training, fundamentally limiting the physical realism of generated videos. Motivated by these considerations, we introduce, for the first time, a physics-aware reinforcement learning paradigm for video generation models that enforces physical collision rules directly in high-dimensional spaces, ensuring the physics knowledge is strictly applied rather than treated as conditions. Subsequently, we extend this paradigm to a unified framework, termed Mimicry-Discovery Cycle (MDcycle), which allows substantial fine-tuning while fully preserving the model's ability to leverage physics-grounded feedback. To validate our approach, we construct new benchmark PhysRVGBench and perform extensive qualitative and quantitative experiments to thoroughly assess its effectiveness.

PhysRVG: Apprendimento per Rinforzo Unificato Consapevole della Fisica per Modelli Generativi Video

PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Abstract

Support