ChatPaper.aiChatPaper

Fast3R: Hacia la Reconstrucción 3D de más de 1000 Imágenes en un Paso hacia Adelante

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

January 23, 2025
Autores: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI

Resumen

La reconstrucción 3D multi-vista sigue siendo un desafío fundamental en visión por computadora, especialmente en aplicaciones que requieren representaciones precisas y escalables a través de perspectivas diversas. Los métodos líderes actuales como DUSt3R emplean un enfoque fundamentalmente por pares, procesando imágenes de a dos y requiriendo costosos procedimientos de alineación global para reconstruir desde múltiples vistas. En este trabajo, proponemos Reconstrucción 3D Rápida (Fast3R), una generalización multi-vista novedosa de DUSt3R que logra una reconstrucción 3D eficiente y escalable al procesar muchas vistas en paralelo. La arquitectura basada en Transformadores de Fast3R avanza N imágenes en un solo pase hacia adelante, evitando la necesidad de alineación iterativa. A través de experimentos extensos en estimación de posición de cámara y reconstrucción 3D, Fast3R demuestra un rendimiento de vanguardia, con mejoras significativas en velocidad de inferencia y reducción de acumulación de errores. Estos resultados establecen a Fast3R como una alternativa robusta para aplicaciones multi-vista, ofreciendo una escalabilidad mejorada sin comprometer la precisión de la reconstrucción.
English
Multi-view 3D reconstruction remains a core challenge in computer vision, particularly in applications requiring accurate and scalable representations across diverse perspectives. Current leading methods such as DUSt3R employ a fundamentally pairwise approach, processing images in pairs and necessitating costly global alignment procedures to reconstruct from multiple views. In this work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view generalization to DUSt3R that achieves efficient and scalable 3D reconstruction by processing many views in parallel. Fast3R's Transformer-based architecture forwards N images in a single forward pass, bypassing the need for iterative alignment. Through extensive experiments on camera pose estimation and 3D reconstruction, Fast3R demonstrates state-of-the-art performance, with significant improvements in inference speed and reduced error accumulation. These results establish Fast3R as a robust alternative for multi-view applications, offering enhanced scalability without compromising reconstruction accuracy.

Summary

AI-Generated Summary

PDF175January 24, 2025