VGGRPO: Auf dem Weg zu weltkonsistenter Videogenerierung mit 4D-Latenzbelohnung
VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward
March 27, 2026
Autoren: Zhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla
cs.AI
Zusammenfassung
Große videodiffusionsmodelle erreichen beeindruckende visuelle Qualität, bewahren jedoch häufig keine geometrische Konsistenz. Bestehende Ansätze verbessern die Konsistenz entweder durch Erweiterung des Generators mit zusätzlichen Modulen oder durch geometriebewusste Ausrichtung. Architektonische Modifikationen können jedoch die Generalisierungsfähigkeit von internetweit vortrainierten Modellen beeinträchtigen, während bestehende Ausrichtungsmethoden auf statische Szenen beschränkt sind und auf RGB-Raum-Belohnungen angewiesen sind, die wiederholte VAE-Decodierung erfordern – was erheblichen Rechenaufwand verursacht und sich nicht auf hochdynamische reale Szenen verallgemeinern lässt. Um die vortrainierte Kapazität zu erhalten und gleichzeitig die geometrische Konsistenz zu verbessern, schlagen wir VGGRPO (Visual Geometry GRPO) vor, einen latenten geometriegeführten Rahmen für geometriebewusstes Video-Post-Training. VGGRPO führt ein Latent Geometry Model (LGM) ein, das Video-Diffusions-Latents mit Geometrie-Foundation-Modellen verknüpft und so die direkte Decodierung der Szenengeometrie aus dem Latentraum ermöglicht. Indem LGM aus einem Geometriemodell mit 4D-Rekonstruktionsfähigkeit aufgebaut wird, erstreckt sich VGGRPO natürlich auf dynamische Szenen und überwindet die Beschränkungen früherer Methoden auf statische Szenen. Darauf aufbauend führen wir eine Latentraum-Gruppenrelative Policy-Optimierung mit zwei komplementären Belohnungen durch: einer Belohnung für Kamerabewegungsglätte, die ruckartige Trajektorien bestraft, und einer Belohnung für geometrische Reprojektionskonsistenz, die konsistente Geometrie über Blickrichtungen hinweg erzwingt. Experimente auf statischen und dynamischen Benchmarks zeigen, dass VGGRPO die Kamerastabilität, geometrische Konsistenz und Gesamtqualität verbessert und gleichzeitig kostspielige VAE-Decodierung eliminiert, was latentraum-geometriegeführte Verstärkung zu einem effizienten und flexiblen Ansatz für weltkonsistente Videogenerierung macht.
English
Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.