Gen3R: Geração de Cenas 3D Encontra a Reconstrução Feed-Forward

Resumo

Apresentamos o Gen3R, um método que une os fortes *priors* dos modelos fundacionais de reconstrução e dos modelos de difusão de vídeo para a geração 3D em nível de cena. Reaproveitamos o modelo de reconstrução VGGT para produzir latentes geométricos, treinando um adaptador em seus *tokens*, que são regularizados para se alinharem com os latentes de aparência de modelos de difusão de vídeo pré-treinados. Ao gerar conjuntamente esses latentes desacoplados, porém alinhados, o Gen3R produz tanto vídeos RGB quanto a geometria 3D correspondente, incluindo poses de câmera, mapas de profundidade e nuvens de pontos globais. Experimentos demonstram que nossa abordagem alcança resultados de última geração na geração de cenas 3D condicionadas a uma única imagem e a múltiplas imagens. Além disso, nosso método pode aumentar a robustez da reconstrução ao aproveitar os *priors* generativos, demonstrando o benefício mútuo do acoplamento estreito entre modelos de reconstrução e modelos generativos.

English

We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.

Gen3R: Geração de Cenas 3D Encontra a Reconstrução Feed-Forward

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Resumo

Support