ChatPaper.aiChatPaper

Fast3R : Vers la Reconstruction 3D de plus de 1000 Images en une Seule Passe en Avant

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

January 23, 2025
Auteurs: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI

Résumé

La reconstruction 3D multi-vues reste un défi majeur en vision par ordinateur, en particulier dans les applications nécessitant des représentations précises et évolutives à travers des perspectives diverses. Les méthodes actuelles de pointe telles que DUSt3R utilisent une approche fondamentalement par paires, traitant les images par paires et nécessitant des procédures coûteuses d'alignement global pour reconstruire à partir de vues multiples. Dans ce travail, nous proposons Fast 3D Reconstruction (Fast3R), une nouvelle généralisation multi-vues de DUSt3R qui permet une reconstruction 3D efficace et évolutive en traitant de nombreuses vues en parallèle. L'architecture basée sur les Transformers de Fast3R transmet N images en une seule passe avant, contournant ainsi le besoin d'alignement itératif. À travers des expériences approfondies sur l'estimation de la pose de la caméra et la reconstruction 3D, Fast3R démontre des performances de pointe, avec des améliorations significatives en termes de vitesse d'inférence et de réduction de l'accumulation d'erreurs. Ces résultats établissent Fast3R comme une alternative robuste pour les applications multi-vues, offrant une évolutivité améliorée sans compromettre la précision de la reconstruction.
English
Multi-view 3D reconstruction remains a core challenge in computer vision, particularly in applications requiring accurate and scalable representations across diverse perspectives. Current leading methods such as DUSt3R employ a fundamentally pairwise approach, processing images in pairs and necessitating costly global alignment procedures to reconstruct from multiple views. In this work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view generalization to DUSt3R that achieves efficient and scalable 3D reconstruction by processing many views in parallel. Fast3R's Transformer-based architecture forwards N images in a single forward pass, bypassing the need for iterative alignment. Through extensive experiments on camera pose estimation and 3D reconstruction, Fast3R demonstrates state-of-the-art performance, with significant improvements in inference speed and reduced error accumulation. These results establish Fast3R as a robust alternative for multi-view applications, offering enhanced scalability without compromising reconstruction accuracy.

Summary

AI-Generated Summary

PDF175January 24, 2025