ChatPaper.aiChatPaper

Gen3R: 3D-scènegeneratie ontmoet voorwaartse reconstructie

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

January 7, 2026
Auteurs: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI

Samenvatting

Wij presenteren Gen3R, een methode die de sterke voorkennis van fundamentele reconstructiemodellen en videodiffusiemodellen met elkaar verbindt voor 3D-generatie op scèniveau. Wij hergebruiken het VGGT-reconstructiemodel om geometrische latenten te produceren door een adapter te trainen op zijn tokens, die worden geregulariseerd om aan te sluiten bij de uiterlijk-latenten van voorgetrainde videodiffusiemodellen. Door deze ontvlochten maar uitgelijnde latenten gezamenlijk te genereren, produceert Gen3R zowel RGB-video's als bijbehorende 3D-geometrie, inclusief cameraposities, dieptekaarten en globale puntenwolken. Experimenten tonen aan dat onze aanpak state-of-the-art resultaten behaalt bij 3D-scènegeneratie op basis van één en meerdere afbeeldingen. Bovendien kan onze methode de robuustheid van reconstructie verbeteren door gebruik te maken van generatieve voorkennis, wat het wederzijdse voordeel aantoont van een nauwe koppeling tussen reconstructie- en generatieve modellen.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.
PDF01January 9, 2026