PE3R: Reconstrucción 3D Eficiente en Percepción
PE3R: Perception-Efficient 3D Reconstruction
March 10, 2025
Autores: Jie Hu, Shizun Wang, Xinchao Wang
cs.AI
Resumen
Los recientes avances en la percepción de 2D a 3D han mejorado significativamente la comprensión de escenas 3D a partir de imágenes 2D. Sin embargo, los métodos existentes enfrentan desafíos críticos, incluyendo una generalización limitada entre escenas, una precisión de percepción subóptima y velocidades de reconstrucción lentas. Para abordar estas limitaciones, proponemos Perception-Efficient 3D Reconstruction (PE3R), un marco novedoso diseñado para mejorar tanto la precisión como la eficiencia. PE3R emplea una arquitectura de avance directo para permitir una reconstrucción rápida del campo semántico 3D. El marco demuestra una robusta generalización zero-shot en diversas escenas y objetos, al mismo tiempo que mejora significativamente la velocidad de reconstrucción. Experimentos exhaustivos en segmentación de vocabulario abierto de 2D a 3D y reconstrucción 3D validan la efectividad y versatilidad de PE3R. El marco logra una aceleración mínima de 9 veces en la reconstrucción del campo semántico 3D, junto con mejoras sustanciales en la precisión de percepción y reconstrucción, estableciendo nuevos referentes en el campo. El código está disponible públicamente en: https://github.com/hujiecpp/PE3R.
English
Recent advancements in 2D-to-3D perception have significantly improved the
understanding of 3D scenes from 2D images. However, existing methods face
critical challenges, including limited generalization across scenes, suboptimal
perception accuracy, and slow reconstruction speeds. To address these
limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel
framework designed to enhance both accuracy and efficiency. PE3R employs a
feed-forward architecture to enable rapid 3D semantic field reconstruction. The
framework demonstrates robust zero-shot generalization across diverse scenes
and objects while significantly improving reconstruction speed. Extensive
experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction
validate the effectiveness and versatility of PE3R. The framework achieves a
minimum 9-fold speedup in 3D semantic field reconstruction, along with
substantial gains in perception accuracy and reconstruction precision, setting
new benchmarks in the field. The code is publicly available at:
https://github.com/hujiecpp/PE3R.Summary
AI-Generated Summary