ChatPaper.aiChatPaper

Gen3R: 3D-Szenengeneration trifft auf Vorwärtsrekonstruktion

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

January 7, 2026
papers.authors: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI

papers.abstract

Wir stellen Gen3R vor, eine Methode, die die starken Priors von foundation Rekonstruktionsmodellen und Video-Diffusionsmodellen für die szenenbasierte 3D-Generierung verbindet. Wir passen das VGGT-Rekonstruktionsmodell an, um geometrische Latents zu erzeugen, indem wir einen Adapter auf dessen Tokens trainieren. Diese werden regularisiert, um sich an die Erscheinungs-Latents vortrainierter Video-Diffusionsmodelle anzupassen. Durch die gemeinsame Generierung dieser entflochtenen, aber ausgerichteten Latents erzeugt Gen3R sowohl RGB-Videos als auch die entsprechende 3D-Geometrie, einschließlich Kameraposen, Tiefenkarten und globaler Punktwolken. Experimente zeigen, dass unser Ansatz state-of-the-art Ergebnisse bei der 3D-Szenengenerierung auf Basis einzelner oder mehrerer Bilder erzielt. Zusätzlich kann unsere Methode die Robustheit der Rekonstruktion durch die Nutzung generativer Priors verbessern, was den gegenseitigen Nutzen einer engen Kopplung von Rekonstruktions- und Generativmodellen demonstriert.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.
PDF01January 9, 2026