VGGRPO : Vers une génération vidéo cohérente avec le monde grâce à une récompense latente 4D

Résumé

Les modèles de diffusion vidéo à grande échelle atteignent une qualité visuelle impressionnante, mais échouent souvent à préserver la cohérence géométrique. Les approches antérieures améliorent cette cohérence soit en augmentant le générateur avec des modules supplémentaires, soit en appliquant un alignement géométrique. Cependant, les modifications architecturales peuvent compromettre la généralisation des modèles pré-entraînés à l'échelle d'Internet, tandis que les méthodes d'alignement existantes se limitent aux scènes statiques et reposent sur des récompenses dans l'espace RGB qui nécessitent un décodage VAE répété, entraînant une surcharge computationnelle substantielle et échouant à généraliser aux scènes dynamiques du monde réel. Pour préserver la capacité pré-entraînée tout en améliorant la cohérence géométrique, nous proposons VGGRPO (Visual Geometry GRPO), un framework en post-entraînement guidé par la géométrie latente pour les vidéos géométriquement cohérentes. VGGRPO introduit un Modèle de Géométrie Latente (LGM) qui connecte les latences de diffusion vidéo aux modèles de fondation géométrique, permettant le décodage direct de la géométrie de la scène depuis l'espace latent. En construisant le LGM à partir d'un modèle géométrique capable de reconstruction 4D, VGGRPO s'étend naturellement aux scènes dynamiques, surmontant les limitations des méthodes antérieures conçues pour les scènes statiques. Sur cette base, nous effectuons une Optimisation de Politique Relative par Groupe dans l'espace latent avec deux récompenses complémentaires : une récompense de fluidité du mouvement de la caméra qui pénalise les trajectoires saccadées, et une récompense de cohérence géométrique par reprojection qui impose une cohérence géométrique multi-vues. Les expériences sur des benchmarks statiques et dynamiques montrent que VGGRPO améliore la stabilité de la caméra, la cohérence géométrique et la qualité globale tout en éliminant le coûteux décodage VAE, faisant de la reinforcement learning guidée par la géométrie dans l'espace latent une approche efficace et flexible pour la génération de vidéos géométriquement cohérentes.

English

Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.

VGGRPO : Vers une génération vidéo cohérente avec le monde grâce à une récompense latente 4D

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Résumé

Support