Fast3R: Rumo à Reconstrução 3D de 1000+ Imagens em uma Única Passagem Avançada
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
January 23, 2025
Autores: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI
Resumo
A reconstrução 3D multi-visão continua a ser um desafio central em visão computacional, especialmente em aplicações que exigem representações precisas e escaláveis em diversas perspectivas. Métodos líderes atuais, como o DUSt3R, empregam uma abordagem fundamentalmente em pares, processando imagens aos pares e necessitando de procedimentos custosos de alinhamento global para reconstruir a partir de múltiplas visões. Neste trabalho, propomos Reconstrução 3D Rápida (Fast3R), uma generalização multi-visão inovadora do DUSt3R que alcança uma reconstrução 3D eficiente e escalável ao processar muitas visões em paralelo. A arquitetura baseada em Transformer do Fast3R encaminha N imagens em uma única passagem direta, evitando a necessidade de alinhamento iterativo. Através de experimentos extensivos em estimativa de pose de câmera e reconstrução 3D, o Fast3R demonstra um desempenho de ponta, com melhorias significativas na velocidade de inferência e na redução da acumulação de erros. Esses resultados estabelecem o Fast3R como uma alternativa robusta para aplicações multi-visão, oferecendo escalabilidade aprimorada sem comprometer a precisão da reconstrução.
English
Multi-view 3D reconstruction remains a core challenge in computer vision,
particularly in applications requiring accurate and scalable representations
across diverse perspectives. Current leading methods such as DUSt3R employ a
fundamentally pairwise approach, processing images in pairs and necessitating
costly global alignment procedures to reconstruct from multiple views. In this
work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view
generalization to DUSt3R that achieves efficient and scalable 3D reconstruction
by processing many views in parallel. Fast3R's Transformer-based architecture
forwards N images in a single forward pass, bypassing the need for iterative
alignment. Through extensive experiments on camera pose estimation and 3D
reconstruction, Fast3R demonstrates state-of-the-art performance, with
significant improvements in inference speed and reduced error accumulation.
These results establish Fast3R as a robust alternative for multi-view
applications, offering enhanced scalability without compromising reconstruction
accuracy.Summary
AI-Generated Summary