ChatPaper.aiChatPaper

Gen3R: La Generación de Escenas 3D se Encuentra con la Reconstrucción por Propagación Directa

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

January 7, 2026
Autores: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI

Resumen

Presentamos Gen3R, un método que conecta los fuertes *priors* de los modelos fundacionales de reconstrucción y los modelos de difusión de vídeo para la generación 3D a nivel de escena. Reutilizamos el modelo de reconstrucción VGGT para producir latentes geométricos entrenando un adaptador sobre sus *tokens*, los cuales se regularizan para alinearse con los latentes de apariencia de modelos de difusión de vídeo preentrenados. Al generar conjuntamente estos latentes disentanglados pero alineados, Gen3R produce tanto vídeos RGB como la geometría 3D correspondiente, incluyendo poses de cámara, mapas de profundidad y nubes de puntos globales. Los experimentos demuestran que nuestro enfoque logra resultados de vanguardia en la generación de escenas 3D condicionada por una única imagen y por múltiples imágenes. Adicionalmente, nuestro método puede mejorar la robustez de la reconstrucción aprovechando *priors* generativos, lo que demula el beneficio mutuo de un acoplamiento estrecho entre modelos de reconstrucción y generativos.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.
PDF22February 7, 2026