VGGT-Det: 센서 기하구조에 구애받지 않는 다중 뷰 실내 3D 객체 탐지를 위한 VGGT 내부 사전 정보 활용
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
March 1, 2026
저자: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI
초록
현재의 다중 뷰 실내 3D 객체 감지기는 다중 뷰 정보를 글로벌 장면 표현으로 융합하기 위해 획득 비용이 높은(즉, 정밀하게 보정된 다중 뷰 카메라 포즈) 센서 기하학에 의존하여 실제 장면에서의 적용이 제한됩니다. 본 연구는 더 실용적인 설정인 센서 기하학 무료(SG-Free) 다중 뷰 실내 3D 객체 감지를 목표로 합니다. 이 설정에서는 센서가 제공하는 기하학적 입력(다중 뷰 포즈 또는 깊이 정보)이 존재하지 않습니다. 최근 Visual Geometry Grounded Transformer(VGGT)는 강력한 3D 단서가 이미지로부터 직접 추론될 수 있음을 보여주었습니다. 이러한 통찰을 바탕으로, 우리는 SG-Free 다중 뷰 실내 3D 객체 감지를 위해 특화된 최초의 프레임워크인 VGGT-Det를 제안합니다. 단순히 VGGT 예측 결과를 사용하는 대신, 우리의 방법은 VGGT 인코더를 트랜스포머 기반 파이프라인에 통합합니다. VGGT 내부의 의미론적 및 기하학적 사전 정보를 효과적으로 활용하기 위해 두 가지 새로운 핵심 구성 요소를 도입했습니다: (i) 주의 안내 쿼리 생성(AG): 객체 영역에 집중하면서도 글로벌 공간 구조를 보존함으로써 위치 지정 정확도를 향상시키기 위해 의미론적 사전 정보로서 VGGT 주의 맵을 활용하여 객체 쿼리를 초기화합니다. (ii) 쿼리 주도 특징 집계(QD): 학습 가능한 See-Query가 객체 쿼리와 상호 작용하여 그들이 필요로 하는 것을 '인지'한 다음, 2D 특징을 점진적으로 3D로 승격시키는 VGGT 계층 간의 다중 수준 기하학적 특징을 동적으로 집계합니다. 실험 결과, VGGT-Det는 SG-Free 설정에서 ScanNet과 ARKitScenes 데이터셋에서 각각 4.4 mAP@0.25 및 8.6 mAP@0.25 만큼 최고 성능의 기존 방법을 크게 능가하는 것으로 나타났습니다. ablation 연구를 통해 VGGT가 내부적으로 학습한 의미론적 및 기하학적 사전 정보가 우리의 AG와 QD에 의해 효과적으로 활용될 수 있음이 입증되었습니다.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.