Gen3R: Генерация 3D-сцен и прямое восстановление
Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
January 7, 2026
Авторы: Jiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao
cs.AI
Аннотация
Мы представляем Gen3R — метод, который объединяет строгие априорные представления фундаментальных моделей реконструкции и моделей видео-диффузии для задач сценарной 3D-генерации. Мы адаптируем модель реконструкции VGGT для получения геометрических латентных представлений путем обучения адаптера на ее токенах, которые регуляризуются для согласования с латентными переменными внешнего вида предобученных моделей видео-диффузии. Совместно генерируя эти разъединенные, но согласованные латентные представления, Gen3R создает как RGB-видео, так и соответствующую 3D-геометрию, включая позиции камеры, карты глубины и глобальные облака точек. Эксперименты показывают, что наш подход достигает передовых результатов в 3D-генерации сцен по одному или нескольким изображениям. Кроме того, наш метод может повысить устойчивость реконструкции за счет использования генеративных априорных знаний, демонстрируя взаимную выгоду тесной интеграции реконструкционных и генеративных моделей.
English
We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.