ChatPaper.aiChatPaper

PE3R: Ricostruzione 3D a Efficienza Percettiva

PE3R: Perception-Efficient 3D Reconstruction

March 10, 2025
Autori: Jie Hu, Shizun Wang, Xinchao Wang
cs.AI

Abstract

I recenti progressi nella percezione da 2D a 3D hanno migliorato significativamente la comprensione delle scene 3D a partire da immagini 2D. Tuttavia, i metodi esistenti affrontano sfide critiche, tra cui una generalizzazione limitata tra le scene, un'accuratezza percettiva subottimale e velocità di ricostruzione lente. Per affrontare queste limitazioni, proponiamo Perception-Efficient 3D Reconstruction (PE3R), un nuovo framework progettato per migliorare sia l'accuratezza che l'efficienza. PE3R utilizza un'architettura feed-forward per consentire una rapida ricostruzione del campo semantico 3D. Il framework dimostra una robusta generalizzazione zero-shot attraverso scene e oggetti diversi, migliorando significativamente la velocità di ricostruzione. Esperimenti estesi sulla segmentazione open-vocabulary da 2D a 3D e sulla ricostruzione 3D convalidano l'efficacia e la versatilità di PE3R. Il framework raggiunge un incremento minimo di 9 volte nella velocità di ricostruzione del campo semantico 3D, insieme a sostanziali miglioramenti nell'accuratezza percettiva e nella precisione di ricostruzione, stabilendo nuovi benchmark nel campo. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/hujiecpp/PE3R.
English
Recent advancements in 2D-to-3D perception have significantly improved the understanding of 3D scenes from 2D images. However, existing methods face critical challenges, including limited generalization across scenes, suboptimal perception accuracy, and slow reconstruction speeds. To address these limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel framework designed to enhance both accuracy and efficiency. PE3R employs a feed-forward architecture to enable rapid 3D semantic field reconstruction. The framework demonstrates robust zero-shot generalization across diverse scenes and objects while significantly improving reconstruction speed. Extensive experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction validate the effectiveness and versatility of PE3R. The framework achieves a minimum 9-fold speedup in 3D semantic field reconstruction, along with substantial gains in perception accuracy and reconstruction precision, setting new benchmarks in the field. The code is publicly available at: https://github.com/hujiecpp/PE3R.
PDF101March 11, 2025