VGGRPO: Verso una generazione video coerente con il mondo attraverso ricompense latenti 4D

Abstract

I modelli di diffusione video su larga scala raggiungono un'impressionante qualità visiva, ma spesso non preservano la coerenza geometrica. Gli approcci precedenti migliorano la coerenza aumentando il generatore con moduli aggiuntivi o applicando un allineamento consapevole della geometria. Tuttavia, le modifiche architetturali possono compromettere la generalizzazione dei modelli preaddestrati su dati internet-scale, mentre i metodi di allineamento esistenti sono limitati a scene statiche e si basano su ricompense nello spazio RGB che richiedono una ripetuta decodifica VAE, comportando un sovraccarico computazionale sostanziale e fallendo nella generalizzazione a scene dinamiche del mondo reale. Per preservare la capacità preaddestrata migliorando al contempo la coerenza geometrica, proponiamo VGGRPO (Visual Geometry GRPO), un framework di post-addestramento video guidato dalla geometria nello spazio latente. VGGRPO introduce un Modello di Geometria Latente (LGM) che collega i latenti della diffusione video a modelli fondazionali di geometria, consentendo la decodifica diretta della geometria della scena dallo spazio latente. Costruendo l'LGM a partire da un modello di geometria con capacità di ricostruzione 4D, VGGRPO si estende naturalmente alle scene dinamiche, superando le limitazioni delle scene statiche dei metodi precedenti. Su questa base, eseguiamo un'ottimizzazione delle politiche relative di gruppo nello spazio latente con due ricompense complementari: una ricompensa di morbidezza del movimento della fotocamera che penalizza le traiettorie tremolanti, e una ricompensa di coerenza della riproiezione geometrica che impone una coerenza geometrica multi-vista. Esperimenti su benchmark statici e dinamici mostrano che VGGRPO migliora la stabilità della fotocamera, la coerenza geometrica e la qualità complessiva, eliminando al contempo la costosa decodifica VAE, rendendo il rinforzo guidato dalla geometria nello spazio latente un approccio efficiente e flessibile per la generazione video coerente con il mondo.

English

Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.

VGGRPO: Verso una generazione video coerente con il mondo attraverso ricompense latenti 4D

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Abstract

Support