Gen3R: 3D 장면 생성과 순전파 복원의 만남
Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
January 7, 2026
저자: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI
초록
Gen3R는 장면 단위 3D 생성 작업을 위해 강력한 기반 재구성 모델과 비디오 확산 모델의 사전 지식을 융합하는 방법론을 제안합니다. 우리는 VGGT 재구성 모델의 토큰에 어댑터를 학습시켜 기하학적 잠재 공간을 생성하도록 재구성하였으며, 이 잠재 공간은 사전 학습된 비디오 확산 모델의 외관 잠재 공간과 정렬되도록 정규화됩니다. 이러한 분리되었으나 정렬된 잠재 공간을 공동으로 생성함으로써 Gen3R는 RGB 비디오와 함께 카메라 포즈, 깊이 맵, 전역 포인트 클라우드에 해당하는 3D 형상을 동시에 생성합니다. 실험 결과, 우리의 접근 방식이 단일 및 다중 이미지 조건부 3D 장면 생성 분야에서 최첨단 성능을 달성함을 입증합니다. 또한, 생성적 사전 지식을 활용하여 재구성의 강건성을 향상시킬 수 있어 재구성 모델과 생성 모델의 긴밀한 결합이 상호 이득을 가져옴을 보여줍니다.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.