WildDet3D: Escalonando a Detecção 3D Acionável por Prompt em Ambientes Não Controlados

Resumo

A compreensão de objetos em 3D a partir de uma única imagem é um pilar fundamental da inteligência espacial. Um passo crucial para este objetivo é a deteção monocular de objetos 3D – a recuperação da extensão, localização e orientação de objetos a partir de uma imagem RGB de entrada. Para ser prática no mundo real, tal detetor deve generalizar para além de categorias de conjunto fechado, suportar diversas modalidades de prompt e aproveitar pistas geométricas quando disponíveis. O progresso é dificultado por dois estrangulamentos: os métodos existentes são concebidos para um único tipo de prompt e carecem de um mecanismo para incorporar pistas geométricas adicionais, e os conjuntos de dados 3D atuais abrangem apenas categorias restritas em ambientes controlados, limitando a transferência para o mundo aberto. Neste trabalho, abordamos ambas as lacunas. Primeiro, introduzimos o WildDet3D, uma arquitetura unificada e consciente da geometria que aceita nativamente prompts de texto, ponto e caixa e pode incorporar sinais de profundidade auxiliares no momento da inferência. Em segundo lugar, apresentamos o WildDet3D-Data, o maior conjunto de dados de deteção 3D aberto até à data, construído através da geração de caixas 3D candidatas a partir de anotações 2D existentes e retendo apenas as validadas por humanos, resultando em mais de 1M de imagens abrangendo 13,5K categorias em diversas cenas do mundo real. O WildDet3D estabelece um novo estado da arte em vários benchmarks e configurações. Na configuração de mundo aberto, atinge 22,6/24,8 AP3D no nosso recém-introduzido WildDet3D-Bench com prompts de texto e caixa. No Omni3D, atinge 34,2/36,4 AP3D com prompts de texto e caixa, respetivamente. Na avaliação *zero-shot*, atinge 40,3/48,9 ODS no Argoverse 2 e no ScanNet. Notavelmente, a incorporação de pistas de profundidade no momento da inferência produz ganhos adicionais substanciais (+20,7 AP em média em todas as configurações).

English

Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).

WildDet3D: Escalonando a Detecção 3D Acionável por Prompt em Ambientes Não Controlados

WildDet3D: Scaling Promptable 3D Detection in the Wild

Resumo

Support