Gen3R: Generazione di Scene 3D e Ricostruzione Feed-Forward

Abstract

Presentiamo Gen3R, un metodo che collega i forti priori dei modelli fondazionali di ricostruzione e dei modelli di diffusione video per la generazione 3D a livello di scena. Riadattiamo il modello di ricostruzione VGGT per produrre latenti geometrici addestrando un adattatore sui suoi token, che vengono regolarizzati per allinearsi con i latenti di aspetto di modelli di diffusione video pre-addestrati. Generando congiuntamente questi latenti disaccoppiati ma allineati, Gen3R produce sia video RGB che la geometria 3D corrispondente, incluse le pose della telecamera, le mappe di profondità e le nuvole di punti globali. Gli esperimenti dimostrano che il nostro approccio ottiene risultati all'avanguardia nella generazione di scene 3D condizionata da singole o multiple immagini. Inoltre, il nostro metodo può migliorare la robustezza della ricostruzione sfruttando priori generativi, dimostrando il beneficio reciproco di un accoppiamento stretto tra modelli di ricostruzione e modelli generativi.

English

We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.

Gen3R: Generazione di Scene 3D e Ricostruzione Feed-Forward

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Abstract

Support