PE3R: Wahrnehmungs-effiziente 3D-Rekonstruktion

papers.abstract

Jüngste Fortschritte in der 2D-zu-3D-Wahrnehmung haben das Verständnis von 3D-Szenen aus 2D-Bildern erheblich verbessert. Bestehende Methoden stehen jedoch vor kritischen Herausforderungen, darunter begrenzte Generalisierung über verschiedene Szenen hinweg, suboptimale Wahrnehmungsgenauigkeit und langsame Rekonstruktionsgeschwindigkeiten. Um diese Einschränkungen zu überwinden, schlagen wir Perception-Efficient 3D Reconstruction (PE3R) vor, ein neuartiges Framework, das sowohl die Genauigkeit als auch die Effizienz verbessern soll. PE3R verwendet eine Feedforward-Architektur, um eine schnelle Rekonstruktion des 3D-semantischen Feldes zu ermöglichen. Das Framework zeigt eine robuste Zero-Shot-Generalisierung über diverse Szenen und Objekte hinweg und verbessert gleichzeitig die Rekonstruktionsgeschwindigkeit erheblich. Umfangreiche Experimente zur 2D-zu-3D-Open-Vocabulary-Segmentierung und 3D-Rekonstruktion bestätigen die Wirksamkeit und Vielseitigkeit von PE3R. Das Framework erreicht eine mindestens 9-fache Beschleunigung bei der Rekonstruktion des 3D-semantischen Feldes sowie erhebliche Verbesserungen in der Wahrnehmungsgenauigkeit und Rekonstruktionspräzision, wodurch neue Maßstäbe in diesem Bereich gesetzt werden. Der Code ist öffentlich verfügbar unter: https://github.com/hujiecpp/PE3R.

English

Recent advancements in 2D-to-3D perception have significantly improved the understanding of 3D scenes from 2D images. However, existing methods face critical challenges, including limited generalization across scenes, suboptimal perception accuracy, and slow reconstruction speeds. To address these limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel framework designed to enhance both accuracy and efficiency. PE3R employs a feed-forward architecture to enable rapid 3D semantic field reconstruction. The framework demonstrates robust zero-shot generalization across diverse scenes and objects while significantly improving reconstruction speed. Extensive experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction validate the effectiveness and versatility of PE3R. The framework achieves a minimum 9-fold speedup in 3D semantic field reconstruction, along with substantial gains in perception accuracy and reconstruction precision, setting new benchmarks in the field. The code is publicly available at: https://github.com/hujiecpp/PE3R.

PE3R: Wahrnehmungs-effiziente 3D-Rekonstruktion

PE3R: Perception-Efficient 3D Reconstruction

papers.abstract

Support