VGGT-Det: Использование внутренних априорных данных VGGT для геометрии-сенсорно-независимого многовидового обнаружения 3D-объектов в помещении
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
March 1, 2026
Авторы: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu
cs.AI
Аннотация
Современные многокамерные детекторы 3D-объектов в помещениях полагаются на дорогостоящую сенсорную геометрию (точные калибровки поз многокамерных систем) для объединения многокамерной информации в глобальное представление сцены, что ограничивает их применение в реальных условиях. Мы рассматриваем более практичную задачу: многокамерное 3D-обнаружение объектов в помещениях без сенсорной геометрии (SG-Free), где отсутствуют геометрические входные данные от сенсоров (позы камер или данные о глубине). Недавно предложенный трансформер с визуальной геометрической основой (VGGT) показал, что сильные 3D-признаки можно извлекать непосредственно из изображений. Основываясь на этом, мы представляем VGGT-Det — первую систему, разработанную специально для SG-Free многокамерного 3D-обнаружения объектов в помещениях. Вместо простого использования предсказаний VGGT, наш метод интегрирует кодировщик VGGT в трансформерный конвейер. Для эффективного использования семантических и геометрических априорных знаний, заложенных в VGGT, мы вводим два ключевых компонента: (i) Генерацию запросов с управлением вниманием (AG): использует карты внимания VGGT как семантические априорные данные для инициализации объектных запросов, улучшая локализацию за счет фокусировки на областях объектов при сохранении глобальной пространственной структуры; (ii) Агрегацию признаков на основе запросов (QD): обучаемый See-Query взаимодействует с объектными запросами, чтобы «увидеть» их потребности, и динамически агрегирует многоуровневые геометрические признаки из слоев VGGT, которые постепенно преобразуют 2D-признаки в 3D. Эксперименты показывают, что VGGT-Det значительно превосходит лучший метод в условиях SG-Free на 4.4 и 8.6 mAP@0.25 на ScanNet и ARKitScenes соответственно. Абляционное исследование подтверждает, что внутренние семантические и геометрические априорные знания, изученные VGGT, могут быть эффективно использованы нашими компонентами AG и QD.
English
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.