ChatPaper.aiChatPaper

VGGRPO: К созданию согласованных с миром видеороликов с помощью 4D-скрытой награды

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

March 27, 2026
Авторы: Zhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla
cs.AI

Аннотация

Крупномасштабные диффузионные модели для видео демонстрируют впечатляющее визуальное качество, но часто не сохраняют геометрическую согласованность. Предыдущие подходы улучшали согласованность либо путем расширения генератора дополнительными модулями, либо применением геометрически-осознанного выравнивания. Однако архитектурные модификации могут нарушить обобщающую способность моделей, предобученных на данных интернет-масштаба, в то время как существующие методы выравнивания ограничены статичными сценами и опираются на функции вознаграждения в RGB-пространстве, требующие многократного декодирования VAE, что влечет значительные вычислительные затраты и не обобщается на высокодинамичные реальные сцены. Для сохранения предобученной емкости моделей при одновременном улучшении геометрической согласованности мы предлагаем VGGRPO — латентную геометрически-направленную структуру для геометрически-осознанного пост-обучения видео. VGGRPO вводит Модель Латентной Геометрии, которая связывает латентные представления видео-диффузии с фоновыми моделями геометрии, позволяя напрямую декодировать геометрию сцены из латентного пространства. Благодаря построению LGM на основе геометрической модели с возможностью 4D-реконструкции, VGGRPO естественным образом распространяется на динамические сцены, преодолевая ограничения статичных сцен, присущие предыдущим методам. На основе этого мы выполняем Групповую Относительную Оптимизацию Политики в латентном пространстве с двумя взаимодополняющими функциями вознаграждения: вознаграждением за плавность движения камеры, которое штрафует джиттер траекторий, и вознаграждением за согласованность геометрической репроекции, которое обеспечивает геометрическую когерентность между разными ракурсами. Эксперименты на статичных и динамических бенчмарках показывают, что VGGRPO улучшает стабильность камеры, геометрическую согласованность и общее качество, одновременно устраняя затратное декодирование VAE, что делает латентную геометрически-направленную оптимизацию с подкреплением эффективным и гибким подходом к генерации видео с согласованной мировой геометрией.
English
Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.
PDF441April 2, 2026