VGGRPO: Hacia la Generación de Vídeo Consistente con el Mundo mediante Recompensa Latente 4D

Resumen

Los modelos de difusión de vídeo a gran escala logran una calidad visual impresionante, pero a menudo no consiguen preservar la consistencia geométrica. Los enfoques previos mejoran la consistencia mediante la ampliación del generador con módulos adicionales o aplicando alineación consciente de la geometría. Sin embargo, las modificaciones arquitectónicas pueden comprometer la generalización de los modelos preentrenados a escala de internet, mientras que los métodos de alineación existentes se limitan a escenas estáticas y dependen de recompensas en el espacio RGB que requieren una decodificación VAE repetida, incurriendo en una sobrecarga computacional sustancial y fallando al generalizar a escenas del mundo real altamente dinámicas. Para preservar la capacidad preentrenada mientras se mejora la consistencia geométrica, proponemos VGGRPO (Visual Geometry GRPO), un marco de trabajo de post-entrenamiento de vídeo consciente de la geometría guiado por geometría latente. VGGRPO introduce un Modelo de Geometría Latente (LGM) que une los latentes de difusión de vídeo con modelos fundacionales de geometría, permitiendo la decodificación directa de la geometría de la escena desde el espacio latente. Al construir el LGM a partir de un modelo de geometría con capacidad de reconstrucción 4D, VGGRPO se extiende naturalmente a escenas dinámicas, superando las limitaciones de escenas estáticas de los métodos anteriores. Sobre esta base, realizamos una Optimización de Política Relativa de Grupo en el espacio latente con dos recompensas complementarias: una recompensa de suavidad del movimiento de cámara que penaliza las trayectorias temblorosas, y una recompensa de consistencia de reproyección geométrica que impone coherencia geométrica multi-vista. Los experimentos en benchmarks estáticos y dinámicos muestran que VGGRPO mejora la estabilidad de la cámara, la consistencia geométrica y la calidad general, al mismo tiempo que elimina la costosa decodificación VAE, haciendo que el refuerzo guiado por geometría en el espacio latente sea un enfoque eficiente y flexible para la generación de vídeo consistente con el mundo.

English

Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.

VGGRPO: Hacia la Generación de Vídeo Consistente con el Mundo mediante Recompensa Latente 4D

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Resumen

Support