VGGT-Det: Sfruttamento dei Priori Interni di VGGT per la Rilevazione 3D di Oggetti in Ambienti Interni da Multi-Vista Indipendente dalla Geometria del Sensore
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
March 1, 2026
Autori: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI
Abstract
Gli attuali rilevatori 3D di oggetti indoor multi-vista si basano su geometrie dei sensori costose da ottenere (ovvero, pose di telecamere multi-vista calibrate con precisione) per fondere le informazioni multi-vista in una rappresentazione globale della scena, limitando il dispiegamento in scenari reali. Noi miriamo a un'impostazione più pratica: il rilevamento 3D di oggetti indoor multi-vista Sensor-Geometry-Free (SG-Free), in cui non sono presenti input geometrici forniti dai sensori (pose multi-vista o profondità). Il recente Visual Geometry Grounded Transformer (VGGT) dimostra che forti indizi 3D possono essere dedotti direttamente dalle immagini. Basandoci su questa intuizione, presentiamo VGGT-Det, il primo framework specificamente progettato per il rilevamento 3D di oggetti indoor multi-vista SG-Free. Piuttosto che limitarsi a utilizzare le previsioni di VGGT, il nostro metodo integra l'encoder VGGT in una pipeline basata su transformer. Per sfruttare efficacemente sia i prior semantici che geometrici all'interno di VGGT, introduciamo due nuovi componenti chiave: (i) Attention-Guided Query Generation (AG): sfrutta le mappe di attenzione di VGGT come prior semantici per inizializzare le query di oggetto, migliorando la localizzazione concentrandosi sulle regioni degli oggetti preservando al contempo la struttura spaziale globale; (ii) Query-Driven Feature Aggregation (QD): una See-Query addestrabile interagisce con le query di oggetto per 'vedere' ciò di cui hanno bisogno, aggregando poi dinamicamente le caratteristiche geometriche multi-livello attraverso i layer VGGT che sollevano progressivamente le caratteristiche 2D in 3D. Gli esperimenti mostrano che VGGT-Det supera significativamente il metodo dalle migliori prestazioni in contesto SG-Free di 4.4 e 8.6 mAP@0.25 rispettivamente su ScanNet e ARKitScenes. Uno studio di ablazione mostra che i prior semantici e geometrici appresi internamente da VGGT possono essere efficacemente sfruttati dalla nostra AG e QD.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.