VGGT-Det: Explotación de Priores Internos de VGGT para la Detección 3D de Objetos en Interiores Multi-Vista Libre de Geometría del Sensor
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
March 1, 2026
Autores: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI
Resumen
Los detectores actuales de objetos 3D en interiores multivista dependen de una geometría de sensor costosa de obtener (es decir, poses de cámara multivista calibradas con precisión) para fusionar la información multivista en una representación global de la escena, lo que limita su despliegue en escenas del mundo real. Nos centramos en un entorno más práctico: la detección de objetos 3D en interiores multivista libre de geometría de sensor (SG-Free), donde no hay entradas geométricas proporcionadas por el sensor (poses multivista o profundidad). El Transformer Basado en Geometría Visual (VGGT) reciente demuestra que se pueden inferir fuertes indicios 3D directamente desde las imágenes. Partiendo de esta idea, presentamos VGGT-Det, el primer marco de trabajo diseñado específicamente para la detección de objetos 3D en interiores multivista SG-Free. En lugar de simplemente consumir las predicciones de VGGT, nuestro método integra el codificador de VGGT en una canalización basada en transformers. Para aprovechar eficazmente tanto los conocimientos previos semánticos como geométricos dentro de VGGT, introducimos dos componentes clave novedosos: (i) Generación de Consultas Guiada por Atención (AG): explota los mapas de atención de VGGT como conocimientos previos semánticos para inicializar las consultas de objetos, mejorando la localización al centrarse en las regiones de los objetos mientras preserva la estructura espacial global; (ii) Agregación de Características Impulsada por Consultas (QD): una Consulta de Visión (See-Query) entrenable interactúa con las consultas de objetos para 'ver' lo que necesitan, y luego agrega dinámicamente características geométricas multinivel a través de las capas de VGGT que elevan progresivamente las características 2D a 3D. Los experimentos muestran que VGGT-Det supera significativamente al método de mejor rendimiento en el entorno SG-Free en 4.4 y 8.6 mAP@0.25 en ScanNet y ARKitScenes, respectivamente. Un estudio de ablación muestra que los conocimientos previos semánticos y geométricos aprendidos internamente por VGGT pueden ser aprovechados eficazmente por nuestro AG y QD.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.