PE3R: Wahrnehmungs-effiziente 3D-Rekonstruktion
PE3R: Perception-Efficient 3D Reconstruction
March 10, 2025
Autoren: Jie Hu, Shizun Wang, Xinchao Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der 2D-zu-3D-Wahrnehmung haben das Verständnis von 3D-Szenen aus 2D-Bildern erheblich verbessert. Bestehende Methoden stehen jedoch vor kritischen Herausforderungen, darunter begrenzte Generalisierung über verschiedene Szenen hinweg, suboptimale Wahrnehmungsgenauigkeit und langsame Rekonstruktionsgeschwindigkeiten. Um diese Einschränkungen zu überwinden, schlagen wir Perception-Efficient 3D Reconstruction (PE3R) vor, ein neuartiges Framework, das sowohl die Genauigkeit als auch die Effizienz verbessern soll. PE3R verwendet eine Feedforward-Architektur, um eine schnelle Rekonstruktion des 3D-semantischen Feldes zu ermöglichen. Das Framework zeigt eine robuste Zero-Shot-Generalisierung über diverse Szenen und Objekte hinweg und verbessert gleichzeitig die Rekonstruktionsgeschwindigkeit erheblich. Umfangreiche Experimente zur 2D-zu-3D-Open-Vocabulary-Segmentierung und 3D-Rekonstruktion bestätigen die Wirksamkeit und Vielseitigkeit von PE3R. Das Framework erreicht eine mindestens 9-fache Beschleunigung bei der Rekonstruktion des 3D-semantischen Feldes sowie erhebliche Verbesserungen in der Wahrnehmungsgenauigkeit und Rekonstruktionspräzision, wodurch neue Maßstäbe in diesem Bereich gesetzt werden. Der Code ist öffentlich verfügbar unter: https://github.com/hujiecpp/PE3R.
English
Recent advancements in 2D-to-3D perception have significantly improved the
understanding of 3D scenes from 2D images. However, existing methods face
critical challenges, including limited generalization across scenes, suboptimal
perception accuracy, and slow reconstruction speeds. To address these
limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel
framework designed to enhance both accuracy and efficiency. PE3R employs a
feed-forward architecture to enable rapid 3D semantic field reconstruction. The
framework demonstrates robust zero-shot generalization across diverse scenes
and objects while significantly improving reconstruction speed. Extensive
experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction
validate the effectiveness and versatility of PE3R. The framework achieves a
minimum 9-fold speedup in 3D semantic field reconstruction, along with
substantial gains in perception accuracy and reconstruction precision, setting
new benchmarks in the field. The code is publicly available at:
https://github.com/hujiecpp/PE3R.Summary
AI-Generated Summary