WildDet3D: Scalabilità del Rilevamento 3D Promptabile in Ambienti Non Controllati

Abstract

La comprensione degli oggetti in 3D a partire da una singola immagine è un pilastro dell'intelligenza spaziale. Un passo fondamentale verso questo obiettivo è la rilevazione 3D monoculare, che consiste nel determinare l'estensione, la posizione e l'orientamento degli oggetti a partire da un'immagine RGB in input. Per essere pratico nel mondo reale, un tale rilevatore deve generalizzare oltre le categorie predefinite, supportare diverse modalità di prompt e sfruttare gli indizi geometrici quando disponibili. Il progresso è ostacolato da due colli di bottiglia: i metodi esistenti sono progettati per un singolo tipo di prompt e mancano di un meccanismo per incorporare indizi geometrici aggiuntivi, mentre gli attuali dataset 3D coprono solo categorie ristrette in ambienti controllati, limitando il trasferimento al mondo aperto. In questo lavoro affrontiamo entrambe le lacune. In primo luogo, introduciamo WildDet3D, un'architettura unificata e consapevole della geometria che accetta nativamente prompt testuali, di punti e di riquadri e può incorporare segnali di profondità ausiliari al momento dell'inferenza. In secondo luogo, presentiamo WildDet3D-Data, il più grande dataset aperto per la rilevazione 3D fino ad oggi, costruito generando candidati riquadri 3D dalle annotazioni 2D esistenti e conservando solo quelli verificati da esseri umani, ottenendo così oltre 1 milione di immagini relative a 13.500 categorie in diverse scene del mondo reale. WildDet3D stabilisce un nuovo stato dell'arte su più benchmark e impostazioni. Nell'ambito del mondo aperto, raggiunge 22,6/24,8 AP3D sul nostro nuovo WildDet3D-Bench con prompt testuali e di riquadri. Su Omni3D, raggiunge rispettivamente 34,2/36,4 AP3D con prompt testuali e di riquadri. Nella valutazione zero-shot, raggiunge 40,3/48,9 ODS su Argoverse 2 e ScanNet. È degno di nota che l'incorporazione di indizi di profondità al momento dell'inferenza produce guadagni aggiuntivi sostanziali (+20,7 AP in media tra le varie impostazioni).

English

Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).

WildDet3D: Scalabilità del Rilevamento 3D Promptabile in Ambienti Non Controllati

WildDet3D: Scaling Promptable 3D Detection in the Wild

Abstract

Support