WildDet3D: Escalonando a Detecção 3D Acionável por Prompt em Ambientes Não Controlados
WildDet3D: Scaling Promptable 3D Detection in the Wild
April 9, 2026
Autores: Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Mattew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
cs.AI
Resumo
A compreensão de objetos em 3D a partir de uma única imagem é um pilar fundamental da inteligência espacial. Um passo crucial para este objetivo é a deteção monocular de objetos 3D – a recuperação da extensão, localização e orientação de objetos a partir de uma imagem RGB de entrada. Para ser prática no mundo real, tal detetor deve generalizar para além de categorias de conjunto fechado, suportar diversas modalidades de prompt e aproveitar pistas geométricas quando disponíveis. O progresso é dificultado por dois estrangulamentos: os métodos existentes são concebidos para um único tipo de prompt e carecem de um mecanismo para incorporar pistas geométricas adicionais, e os conjuntos de dados 3D atuais abrangem apenas categorias restritas em ambientes controlados, limitando a transferência para o mundo aberto. Neste trabalho, abordamos ambas as lacunas. Primeiro, introduzimos o WildDet3D, uma arquitetura unificada e consciente da geometria que aceita nativamente prompts de texto, ponto e caixa e pode incorporar sinais de profundidade auxiliares no momento da inferência. Em segundo lugar, apresentamos o WildDet3D-Data, o maior conjunto de dados de deteção 3D aberto até à data, construído através da geração de caixas 3D candidatas a partir de anotações 2D existentes e retendo apenas as validadas por humanos, resultando em mais de 1M de imagens abrangendo 13,5K categorias em diversas cenas do mundo real. O WildDet3D estabelece um novo estado da arte em vários benchmarks e configurações. Na configuração de mundo aberto, atinge 22,6/24,8 AP3D no nosso recém-introduzido WildDet3D-Bench com prompts de texto e caixa. No Omni3D, atinge 34,2/36,4 AP3D com prompts de texto e caixa, respetivamente. Na avaliação *zero-shot*, atinge 40,3/48,9 ODS no Argoverse 2 e no ScanNet. Notavelmente, a incorporação de pistas de profundidade no momento da inferência produz ganhos adicionais substanciais (+20,7 AP em média em todas as configurações).
English
Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).