VGGT-Det: Extraktion interner VGGT-Priors für geometrieunabhängige 3D-Objekterkennung in Innenräumen mit multiplen Blickwinkeln

Zusammenfassung

Aktuelle Multi-View-3D-Objektdetektoren für Innenräume sind auf eine kostenintensiv zu beschaffende Sensorgeometrie (d.h. präzise kalibrierte Multi-View-Kameraposen) angewiesen, um Multi-View-Informationen in eine globale Szenendarstellung zu fusionieren, was den Einsatz in realen Szenen einschränkt. Wir verfolgen einen praxisnäheren Ansatz: Sensor-Geometry-Free (SG-Free) Multi-View-3D-Objekterkennung in Innenräumen, bei der keine sensorgestützten geometrischen Eingaben (Multi-View-Posen oder Tiefeninformationen) vorliegen. Der kürzlich vorgestellte Visual Geometry Grounded Transformer (VGGT) zeigt, dass starke 3D-Hinweise direkt aus Bildern abgeleitet werden können. Aufbauend auf dieser Erkenntnis präsentieren wir VGGT-Det, das erste Framework, das speziell für SG-Free Multi-View-3D-Objekterkennung in Innenräumen entwickelt wurde. Anstatt lediglich VGGT-Vorhersagen zu verwerten, integriert unsere Methode den VGGT-Encoder in eine Transformer-basierte Pipeline. Um die semantischen und geometrischen Priori-Informationen innerhalb von VGGT effektiv zu nutzen, führen wir zwei neuartige Schlüsselkomponenten ein: (i) Attention-Guided Query Generation (AG): Sie nutzt VGGT-Attentionskarten als semantische Priori-Informationen zur Initialisierung von Objekt-Queries, verbessert die Lokalisierung durch Fokussierung auf Objektregionen und bewahrt gleichzeitig die globale räumliche Struktur. (ii) Query-Driven Feature Aggregation (QD): Eine lernbare See-Query interagiert mit Objekt-Queries, um zu „sehen“, was diese benötigen, und aggregiert dann dynamisch geometrische Merkmale über mehrere Ebenen hinweg aus verschiedenen VGGT-Schichten, die 2D-Merkmale schrittweise in den 3D-Raum heben. Experimente zeigen, dass VGGT-Det die leistungsstärkste Methode im SG-Free-Setting auf ScanNet und ARKitScenes um 4,4 bzw. 8,6 mAP@0,25 signifikant übertrifft. Eine Ablationsstudie belegt, dass die innerhalb von VGGT erlernten semantischen und geometrischen Priori-Informationen durch unsere Komponenten AG und QD effektiv genutzt werden können.

English

Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.

VGGT-Det: Extraktion interner VGGT-Priors für geometrieunabhängige 3D-Objekterkennung in Innenräumen mit multiplen Blickwinkeln

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

Zusammenfassung

Support