VGGT-Det: Het Delven naar Interne Priors in VGGT voor Sensor-Geometrie-Onafhankelijke 3D-Detectie van Binnenobjecten met Meerdere Beeldhoeken
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
March 1, 2026
Auteurs: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI
Samenvatting
Huidige multi-view 3D-objectdetectoren voor binnenruimtes zijn afhankelijk van kostbare sensorgeometrie (d.w.z. nauwkeurig gekalibreerde cameraposes voor meerdere viewpoints) om multi-view informatie te integreren in een globale scènerepresentatie, wat de inzet in real-world scenario's beperkt. Wij richten ons op een praktischer instelling: Sensor-Geometrie-Vrije (SG-Vrije) multi-view 3D-objectdetectie voor binnenruimtes, waarbij er geen door de sensor verstrekte geometrische invoeren zijn (multi-view poses of diepte). De recente Visual Geometry Grounded Transformer (VGGT) toont aan dat sterke 3D-aanwijzingen rechtstreeks uit afbeeldingen kunnen worden afgeleid. Voortbouwend op dit inzicht presenteren we VGGT-Det, het eerste framework dat is toegesneden op SG-Vrije multi-view 3D-objectdetectie voor binnenruimtes. In plaats van slechts VGGT-voorspellingen te consumeren, integreren we de VGGT-encoder in een op transformers gebaseerde pijplijn. Om zowel de semantische als geometrische prioren vanuit VGGT effectief te benutten, introduceren we twee nieuwe kerncomponenten: (i) Attention-Guided Query Generation (AG): benut VGGT-attentiemappen als semantische prioren om objectqueries te initialiseren, waardoor de lokalisatie verbetert door te focussen op objectregio's terwijl de globale ruimtelijke structuur behouden blijft; (ii) Query-Driven Feature Aggregation (QD): een leerbare See-Query interageert met objectqueries om te 'zien' wat ze nodig hebben, en aggregeert vervolgens dynamisch multi-level geometrische features over VGGT-lagen heen die 2D-features progressief optillen naar 3D. Experimenten tonen aan dat VGGT-Det de best presterende methode in de SG-Vrije setting significant overtreft met respectievelijk 4.4 en 8.6 mAP@0.25 op ScanNet en ARKitScenes. Een ablatiestudie toont aan dat de intern aangeleerde semantische en geometrische prioren van VGGT effectief kunnen worden benut door onze AG en QD.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.