Gen3R: 3Dシーン生成とフィードフォワード再構成の融合
Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
January 7, 2026
著者: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI
要旨
我々は、シーンレベル3D生成において、基盤的な復元モデルとビデオ拡散モデルの強力な事前知識を統合する手法Gen3Rを提案する。VGGT復元モデルを再活用し、そのトークンにアダプタを学習させることで幾何学的潜在変数を生成する。これらは、事前学習済みビデオ拡散モデルの外観潜在変数と整合するよう正則化される。これらの分離されながらも整合された潜在変数を共同生成することにより、Gen3RはRGBビデオと、カメラポーズ、深度マップ、大域的点群を含む対応する3Dジオメトリの両方を生成する。実験により、本手法が単一・複数画像条件付き3Dシーン生成において最先端の結果を達成することを示す。さらに、生成的な事前知識を活用することで復元のロバスト性を向上でき、復元モデルと生成モデルの緊密な結合が相互に有益であることを実証する。
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.