VGGT-Det: Exploração de Priores Internos da VGGT para Detecção 3D de Objetos em Ambientes Internos com Múltiplas Visões Livre de Geometria do Sensor

Resumo

Os atuais detectores 3D de objetos em ambientes internos com múltiplas visões dependem de uma geometria de sensor de alto custo (ou seja, poses de câmera multiview calibradas com precisão) para fundir informações multiview em uma representação global da cena, limitando a implantação em cenários do mundo real. Nós visamos uma configuração mais prática: a detecção 3D de objetos em ambientes internos Livre de Geometria de Sensor (SG-Free), onde não há entradas geométricas fornecidas pelo sensor (poses multiview ou profundidade). O recente Visual Geometry Grounded Transformer (VGGT) demonstra que fortes indícios 3D podem ser inferidos diretamente a partir de imagens. Com base nessa percepção, apresentamos o VGGT-Det, o primeiro framework desenvolvido para detecção 3D de objetos em ambientes internos multiview no contexto SG-Free. Em vez de simplesmente consumir as previsões do VGGT, nosso método integra o codificador do VGGT em um *pipeline* baseado em *transformer*. Para alavancar eficazmente tanto os *priors* semânticos quanto geométricos presentes no VGGT, introduzimos dois novos componentes-chave: (i) Geração de Consultas Guiada por Atenção (AG): explora os mapas de atenção do VGGT como *priors* semânticos para inicializar consultas de objetos, melhorando a localização ao focar em regiões de objetos, preservando a estrutura espacial global; (ii) Agregação de Características Orientada por Consultas (QD): uma Consulta-Visualizável (See-Query) aprendível interage com as consultas de objetos para 'ver' o que elas precisam e, em seguida, agrega dinamicamente características geométricas de múltiplos níveis através das camadas do VGGT, que elevam progressivamente características 2D para 3D. Experimentos mostram que o VGGT-Det supera significativamente o método de melhor desempenho na configuração SG-Free em 4.4 e 8.6 mAP@0.25 no ScanNet e ARKitScenes, respectivamente. Um estudo de ablação mostra que os *priors* semânticos e geométricos aprendidos internamente pelo VGGT podem ser eficazmente aproveitados pelos nossos componentes AG e QD.

English

Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.