WildDet3D: Escalando la Detección 3D Avisable en Entornos No Controlados
WildDet3D: Scaling Promptable 3D Detection in the Wild
April 9, 2026
Autores: Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Mattew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
cs.AI
Resumen
La comprensión de objetos en 3D a partir de una sola imagen es un pilar fundamental de la inteligencia espacial. Un paso clave hacia este objetivo es la detección monocular de objetos 3D, que consiste en recuperar las dimensiones, la ubicación y la orientación de los objetos a partir de una imagen RGB de entrada. Para ser práctico en el mundo real, dicho detector debe generalizar más allá de categorías de conjunto cerrado, admitir diversas modalidades de instrucción (prompts) y aprovechar las señales geométricas cuando estén disponibles. El progreso se ve obstaculizado por dos cuellos de botella: los métodos existentes están diseñados para un único tipo de instrucción y carecen de un mecanismo para incorporar señales geométricas adicionales, y los conjuntos de datos 3D actuales cubren solo categorías limitadas en entornos controlados, lo que restringe la transferencia al mundo abierto. En este trabajo abordamos ambas carencias. Primero, presentamos WildDet3D, una arquitectura unificada consciente de la geometría que acepta de forma nativa instrucciones de texto, puntos y cuadros delimitadores (bounding boxes), y puede incorporar señales de profundidad auxiliares en el momento de la inferencia. En segundo lugar, presentamos WildDet3D-Data, el mayor conjunto de datos de detección 3D abierto hasta la fecha, construido generando candidatos a cajas 3D a partir de anotaciones 2D existentes y conservando solo aquellas verificadas por humanos, lo que da como resultado más de 1 millón de imágenes en 13.5K categorías en diversas escenas del mundo real. WildDet3D establece un nuevo estado del arte en múltiples benchmarks y configuraciones. En el entorno de mundo abierto, logra 22.6/24.8 AP3D en nuestro recién introducido WildDet3D-Bench con instrucciones de texto y cuadros delimitadores. En Omni3D, alcanza 34.2/36.4 AP3D con instrucciones de texto y cuadros delimitadores, respectivamente. En evaluación de cero disparos (zero-shot), logra 40.3/48.9 ODS en Argoverse 2 y ScanNet. Cabe destacar que la incorporación de señales de profundidad en el momento de la inferencia produce ganancias adicionales sustanciales (+20.7 AP en promedio en todas las configuraciones).
English
Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).