ChatPaper.aiChatPaper

Fast3R: Verso la Ricostruzione 3D di oltre 1000 Immagini in un Singolo Passaggio Avanti

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

January 23, 2025
Autori: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI

Abstract

La ricostruzione tridimensionale multi-vista rimane una sfida fondamentale nell'ambito della visione artificiale, specialmente nelle applicazioni che richiedono rappresentazioni accurate e scalabili da diverse prospettive. I metodi leader attuali come DUSt3R adottano un approccio fondamentalmente basato su coppie, elaborando le immagini a coppie e richiedendo costose procedure di allineamento globale per ricostruire da molteplici viste. In questo lavoro, proponiamo Fast 3D Reconstruction (Fast3R), una nuova generalizzazione multi-vista di DUSt3R che raggiunge una ricostruzione 3D efficiente e scalabile elaborando molte viste in parallelo. L'architettura basata su Transformer di Fast3R inoltra N immagini in un singolo passaggio in avanti, evitando la necessità di allineamenti iterativi. Attraverso estesi esperimenti sull'accuratezza della posa della fotocamera e sulla ricostruzione 3D, Fast3R dimostra prestazioni all'avanguardia, con miglioramenti significativi nella velocità di inferenza e una riduzione dell'accumulo degli errori. Questi risultati confermano Fast3R come un'alternativa robusta per le applicazioni multi-vista, offrendo una scalabilità migliorata senza compromettere l'accuratezza della ricostruzione.
English
Multi-view 3D reconstruction remains a core challenge in computer vision, particularly in applications requiring accurate and scalable representations across diverse perspectives. Current leading methods such as DUSt3R employ a fundamentally pairwise approach, processing images in pairs and necessitating costly global alignment procedures to reconstruct from multiple views. In this work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view generalization to DUSt3R that achieves efficient and scalable 3D reconstruction by processing many views in parallel. Fast3R's Transformer-based architecture forwards N images in a single forward pass, bypassing the need for iterative alignment. Through extensive experiments on camera pose estimation and 3D reconstruction, Fast3R demonstrates state-of-the-art performance, with significant improvements in inference speed and reduced error accumulation. These results establish Fast3R as a robust alternative for multi-view applications, offering enhanced scalability without compromising reconstruction accuracy.

Summary

AI-Generated Summary

PDF175January 24, 2025