WildDet3D: Skalierbare promptbasierte 3D-Objekterkennung in natürlichen Umgebungen

Zusammenfassung

Das Verständnis von Objekten in 3D aus einem einzelnen Bild ist ein Grundpfeiler der räumlichen Intelligenz. Ein entscheidender Schritt zu diesem Ziel ist die monokulare 3D-Objekterkennung – die Bestimmung der Ausdehnung, Position und Orientierung von Objekten aus einem Eingabe-RGB-Bild. Um in der realen Welt praktikabel zu sein, muss ein solcher Detektor über geschlossene Kategoriemengen hinaus generalisieren, diverse Prompt-Modalitäten unterstützen und, wenn verfügbar, geometrische Hinweise nutzen können. Der Fortschritt wird durch zwei Engpässe behindert: bestehende Methoden sind für einen einzigen Prompt-Typ ausgelegt und verfügen über keinen Mechanismus zur Integration zusätzlicher geometrischer Hinweise, und aktuelle 3D-Datensätze decken nur eng begrenzte Kategorien in kontrollierten Umgebungen ab, was den Transfer in die reale Welt limitiert. In dieser Arbeit adressieren wir beide Lücken. Erstens führen wir WildDet3D ein, eine vereinheitlichte, geometrie-sensitive Architektur, die textuelle, Punkt- und Bounding-Box-Prompts nativ akzeptiert und zusätzliche Tiefensignale zur Inferenzzeit einbeziehen kann. Zweitens präsentieren wir WildDet3D-Data, den bislang größten offenen 3D-Erkennungsdatensatz, der durch die Generierung von Kandidaten-3D-Boxen aus vorhandenen 2D-Annotationen erstellt und auf nur menschlich verifizierte Boxen reduziert wurde, was über 1 Mio. Bilder across 13,5 Tausend Kategorien in diversen realen Szenen ergibt. WildDet3D setzt einen neuen State-of-the-Art in mehreren Benchmarks und Settings. Im Open-World-Setting erreicht es 22,6/24,8 AP3D auf unserem neu eingeführten WildDet3D-Bench mit Text- und Box-Prompts. Auf Omni3D erreicht es 34,2/36,4 AP3D mit Text- bzw. Box-Prompts. In der Zero-Shot-Evaluation erzielt es 40,3/48,9 ODS auf Argoverse 2 und ScanNet. Bemerkenswerterweise bringt die Einbeziehung von Tiefeninformationen zur Inferenzzeit substantiale zusätzliche Gewinne (+20,7 AP im Durchschnitt über alle Settings).

English

Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).

WildDet3D: Skalierbare promptbasierte 3D-Objekterkennung in natürlichen Umgebungen

WildDet3D: Scaling Promptable 3D Detection in the Wild

Zusammenfassung

Support