VGGRPO: Op weg naar wereldconsistente videogeneratie met 4D latente beloning

Samenvatting

Grootschalige videodiffusiemodellen bereiken indrukwekkende visuele kwaliteit, maar slagen er vaak niet in geometrische consistentie te behouden. Eerdere benaderingen verbeteren de consistentie door de generator uit te breiden met aanvullende modules of door geometriebewuste uitlijning toe te passen. Architectuurwijzigingen kunnen echter de generalisatie van internet-schaal voorgetrainde modellen aantasten, terwijl bestaande uitlijningsmethoden beperkt zijn tot statische scènes en vertrouwen op RGB-ruimte beloningen die herhaalde VAE-decodering vereisen, wat aanzienlijke rekenkosten met zich meebrengt en niet generaliseert naar zeer dynamische real-world scènes. Om de voorgetrainde capaciteit te behouden en tegelijkertijd de geometrische consistentie te verbeteren, stellen we VGGRVO (Visual Geometry GRVO) voor, een latent geometrie-gestuurd framework voor geometriebewuste videonatraining. VGGRVO introduceert een Latent Geometrie Model (LGM) dat videodiffusielatenten verbindt met geometrie-foundationmodellen, waardoor directe decodering van scènegeometrie uit de latente ruimte mogelijk wordt. Door LGM te construeren vanuit een geometriemodel met 4D-reconstructiecapaciteit, breidt VGGRVO zich natuurlijk uit naar dynamische scènes, waardoor de beperkingen van eerdere methoden voor statische scènes worden overwonnen. Hierop voortbordurend voeren we latent-ruimte Groep Relatief Beleidsoptimalisatie uit met twee complementaire beloningen: een beloning voor vloeiende camerabeweging die schokkende trajecten penaliseert, en een beloning voor geometrische reprojectieconsistentie die kruisbeeld geometrische coherentie afdwingt. Experimenten op zowel statische als dynamische benchmarks tonen aan dat VGGRVO camerastabiliteit, geometrische consistentie en algehele kwaliteit verbetert, terwijl kostbare VAE-decodering wordt geëlimineerd, waardoor latent-ruimte geometrie-gestuurde versterkingsleren een efficiënte en flexibele aanpak wordt voor wereldconsistente videogeneratie.

English

Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.

VGGRPO: Op weg naar wereldconsistente videogeneratie met 4D latente beloning

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Samenvatting

Support