ChatPaper.aiChatPaper

VGGT-Det : Exploitation des connaissances a priori internes de VGGT pour la détection 3D d'objets en intérieur multi-vues indépendante de la géométrie des capteurs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

March 1, 2026
Auteurs: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI

Résumé

Les détecteurs 3D multi-vues actuels pour intérieurs reposent sur une géométrie des capteurs coûteuse à obtenir (c'est-à-dire des poses de caméras multi-vues précisément calibrées) pour fusionner les informations multi-vues dans une représentation globale de la scène, limitant ainsi leur déploiement dans des scènes réelles. Nous visons un cadre plus pratique : la détection 3D d'objets en intérieur multi-vues sans géométrie des capteurs (SG-Free), où aucune entrée géométrique fournie par les capteurs (poses multi-vues ou profondeur) n'est disponible. Le récent Visual Geometry Grounded Transformer (VGGT) montre que des indices 3D solides peuvent être inférés directement à partir des images. En nous appuyant sur cette idée, nous présentons VGGT-Det, le premier cadre conçu pour la détection 3D d'objets en intérieur multi-vues SG-Free. Plutôt que de simplement utiliser les prédictions de VGGT, notre méthode intègre l'encodeur VGGT dans un pipeline basé sur un transformateur. Pour exploiter efficacement les connaissances préalables sémantiques et géométriques internes à VGGT, nous introduisons deux nouvelles composantes clés : (i) la Génération de Requêtes Guidée par l'Attention (AG) : exploite les cartes d'attention de VGGT comme connaissances préalables sémantiques pour initialiser les requêtes d'objets, améliorant la localisation en se concentrant sur les régions des objets tout en préservant la structure spatiale globale ; (ii) l'Agrégation de Caractéristiques Pilotée par les Requêtes (QD) : une requête d'observation (See-Query) pouvant être apprise interagit avec les requêtes d'objets pour « voir » ce dont elles ont besoin, puis agrège dynamiquement les caractéristiques géométriques multi-niveaux à travers les couches de VGGT qui transforment progressivement les caractéristiques 2D en 3D. Les expériences montrent que VGGT-Det surpasse significativement la méthode la plus performante en contexte SG-Free de 4.4 et 8.6 mAP@0.25 sur ScanNet et ARKitScènes, respectivement. Une étude par ablation montre que les connaissances préalables sémantiques et géométriques apprises en interne par VGGT peuvent être efficacement exploitées par notre AG et QD.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.
PDF291March 4, 2026