PE3R: 인지 효율적 3D 재구성
PE3R: Perception-Efficient 3D Reconstruction
March 10, 2025
저자: Jie Hu, Shizun Wang, Xinchao Wang
cs.AI
초록
최근 2D-to-3D 인식 분야의 발전으로 2D 이미지에서 3D 장면을 이해하는 능력이 크게 향상되었습니다. 그러나 기존 방법들은 장면 간 일반화의 한계, 최적화되지 않은 인식 정확도, 느린 재구성 속도 등의 중요한 문제에 직면해 있습니다. 이러한 한계를 해결하기 위해, 우리는 정확성과 효율성을 모두 향상시키는 새로운 프레임워크인 Perception-Efficient 3D Reconstruction (PE3R)을 제안합니다. PE3R은 피드포워드 아키텍처를 사용하여 빠른 3D 의미 필드 재구성을 가능하게 합니다. 이 프레임워크는 다양한 장면과 객체에 걸쳐 강력한 제로샷 일반화를 보여주며, 재구성 속도를 크게 개선합니다. 2D-to-3D 오픈-보커뷸러리 세그멘테이션과 3D 재구성에 대한 광범위한 실험을 통해 PE3R의 효과성과 다용성을 검증했습니다. 이 프레임워크는 3D 의미 필드 재구성에서 최소 9배의 속도 향상을 달성했을 뿐만 아니라, 인식 정확도와 재구성 정밀도에서도 상당한 개선을 이루며 해당 분야의 새로운 벤치마크를 설정했습니다. 코드는 https://github.com/hujiecpp/PE3R에서 공개되어 있습니다.
English
Recent advancements in 2D-to-3D perception have significantly improved the
understanding of 3D scenes from 2D images. However, existing methods face
critical challenges, including limited generalization across scenes, suboptimal
perception accuracy, and slow reconstruction speeds. To address these
limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel
framework designed to enhance both accuracy and efficiency. PE3R employs a
feed-forward architecture to enable rapid 3D semantic field reconstruction. The
framework demonstrates robust zero-shot generalization across diverse scenes
and objects while significantly improving reconstruction speed. Extensive
experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction
validate the effectiveness and versatility of PE3R. The framework achieves a
minimum 9-fold speedup in 3D semantic field reconstruction, along with
substantial gains in perception accuracy and reconstruction precision, setting
new benchmarks in the field. The code is publicly available at:
https://github.com/hujiecpp/PE3R.Summary
AI-Generated Summary