WildDet3D: Schaalbaar promptbaar 3D-detectie in de vrije wereld

Samenvatting

Het begrijpen van objecten in 3D vanuit een enkele afbeelding is een hoeksteen van ruimtelijke intelligentie. Een cruciale stap in deze richting is monocular 3D-objectdetectie – het herleiden van de afmetingen, locatie en oriëntatie van objecten vanuit een invoer-RGB-afbeelding. Om praktisch bruikbaar te zijn in de open wereld moet een dergelijke detector generaliseren voorbij gesloten categorieën, diverse promptmodaliteiten ondersteunen en, wanneer beschikbaar, gebruikmaken van geometrische aanwijzingen. De vooruitgang wordt belemmerd door twee knelpunten: bestaande methodes zijn ontworpen voor één type prompt en missen een mechanisme om aanvullende geometrische aanwijzingen te integreren, en huidige 3D-datasets beslaan slechts smalle categorieën in gecontroleerde omgevingen, wat de transfer naar de open wereld beperkt. In dit werk adresseren we beide tekortkomingen. Ten eerste introduceren we WildDet3D, een uniforme, geometriebewuste architectuur die van nature tekst-, punt- en vakprompts accepteert en die tijdens de inferentiefase aanvullende dieptesignalen kan incorporeren. Ten tweede presenteren we WildDet3D-Data, de grootste open 3D-detectiedataset tot nu toe, geconstrueerd door kandidaat-3D-vakken te genereren uit bestaande 2D-annotaties en alleen de door mensen geverifieerde te behouden, wat resulteert in meer dan 1 miljoen afbeeldingen verspreid over 13.500 categorieën in diverse real-world scènes. WildDet3D vestigt een nieuwe state-of-the-art across meerdere benchmarks en settings. In de open-world-setting behaalt het 22,6/24,8 AP3D op onze nieuw geïntroduceerde WildDet3D-Bench met tekst- en vakprompts. Op Omni3D bereikt het respectievelijk 34,2/36,4 AP3D met tekst- en vakprompts. In een zero-shot-evaluatie behaalt het 40,3/48,9 ODS op Argoverse 2 en ScanNet. Opmerkelijk is dat het incorporeren van diepte-aanwijzingen tijdens de inferentie aanzienlijke extra winst oplevert (+20,7 AP gemiddeld across alle settings).

English

Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).

WildDet3D: Schaalbaar promptbaar 3D-detectie in de vrije wereld

WildDet3D: Scaling Promptable 3D Detection in the Wild

Samenvatting

Support