ChatPaper.aiChatPaper

Gen3R : La génération de scènes 3D rencontre la reconstruction par propagation avant

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

January 7, 2026
papers.authors: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI

papers.abstract

Nous présentons Gen3R, une méthode qui établit un pont entre les fortes connaissances a priori des modèles fondateurs de reconstruction et les modèles de diffusion vidéo pour la génération 3D au niveau de la scène. Nous réorientons le modèle de reconstruction VGGT pour produire des latents géométriques en entraînant un adaptateur sur ses tokens, qui sont régularisés pour s'aligner avec les latents d'apparence de modèles de diffusion vidéo pré-entraînés. En générant conjointement ces latents désentrelacés mais alignés, Gen3R produit à la fois des vidéos RVB et la géométrie 3D correspondante, incluant les poses de caméra, les cartes de profondeur et les nuages de points globaux. Les expériences démontrent que notre approche obtient des résultats de pointe dans la génération de scènes 3D conditionnée par une image unique ou multiple. De plus, notre méthode peut améliorer la robustesse de la reconstruction en exploitant des connaissances a priori génératives, démontrant l'avantage mutuel d'un couplage étroit entre les modèles de reconstruction et les modèles génératifs.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.
PDF01January 9, 2026