VGGRPO: Rumo à Geração de Vídeos Consistente com o Mundo por meio de Recompensa Latente 4D
VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward
March 27, 2026
Autores: Zhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla
cs.AI
Resumo
Os modelos de difusão de vídeo em larga escala alcançam qualidade visual impressionante, mas frequentemente falham em preservar a consistência geométrica. Abordagens anteriores melhoram a consistência aumentando o gerador com módulos adicionais ou aplicando alinhamento com consciência geométrica. No entanto, modificações arquitetônicas podem comprometer a generalização de modelos pré-treinados em escala da internet, enquanto os métodos de alinhamento existentes são limitados a cenas estáticas e dependem de recompensas no espaço RGB que exigem decodificação repetida do VAE, incorrendo em sobrecarga computacional substancial e falhando na generalização para cenas dinâmicas do mundo real. Para preservar a capacidade pré-treinada enquanto melhora a consistência geométrica, propomos o VGGRPO (Visual Geometry GRPO), uma estrutura de pós-treinamento geométrica orientada por latentes para vídeo. O VGGRPO introduz um Modelo de Geometria Latente (LGM) que conecta os latentes de difusão de vídeo a modelos de base de geometria, permitindo a decodificação direta da geometria da cena a partir do espaço latente. Ao construir o LGM a partir de um modelo geométrico com capacidade de reconstrução 4D, o VGGRPO estende-se naturalmente a cenas dinâmicas, superando as limitações de cenas estáticas dos métodos anteriores. Com base nisso, realizamos a Otimização de Política Relativa de Grupo no espaço latente com duas recompensas complementares: uma recompensa de suavidade do movimento da câmera que penaliza trajetórias instáveis e uma recompensa de consistência de reprojeção geométrica que impõe coerência geométrica entre vistas. Experimentos em benchmarks estáticos e dinâmicos mostram que o VGGRPO melhora a estabilidade da câmera, a consistência geométrica e a qualidade geral, eliminando ao mesmo tempo a custosa decodificação VAE, tornando o reforço guiado por geometria no espaço latente uma abordagem eficiente e flexível para a geração de vídeo com consistência mundial.
English
Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.