ChatPaper.aiChatPaper

WildDet3D : Mise à l'échelle de la détection 3D incitable en conditions réelles

WildDet3D: Scaling Promptable 3D Detection in the Wild

April 9, 2026
Auteurs: Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Mattew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
cs.AI

Résumé

La compréhension des objets en 3D à partir d'une seule image est une pierre angulaire de l'intelligence spatiale. Une étape clé vers cet objectif est la détection monoculaire d'objets 3D, qui consiste à retrouver les dimensions, la position et l'orientation des objets à partir d'une image RVB d'entrée. Pour être pratique dans le monde réel, un tel détecteur doit généraliser au-delà des catégories prédéfinies, prendre en charge diverses modalités d'invite et tirer parti des indices géométriques lorsqu'ils sont disponibles. Les progrès sont entravés par deux goulots d'étranglement : les méthodes existantes sont conçues pour un seul type d'invite et manquent d'un mécanisme pour intégrer des indices géométriques supplémentaires, et les jeux de données 3D actuels ne couvrent que des catégories restreintes dans des environnements contrôlés, limitant ainsi le transfert vers le monde ouvert. Dans ce travail, nous comblons ces deux lacunes. Premièrement, nous présentons WildDet3D, une architecture unifiée et sensible à la géométrie, qui accepte nativement des invites textuelles, ponctuelles et de type boîte, et peut intégrer des signaux de profondeur auxiliaires au moment de l'inférence. Deuxièmement, nous présentons WildDet3D-Data, le plus grand jeu de données ouvert de détection 3D à ce jour, construit en générant des boîtes 3D candidates à partir d'annotations 2D existantes et en ne conservant que celles vérifiées par des humains, ce qui donne plus de 1M d'images couvrant 13,5K catégories dans diverses scènes du monde réel. WildDet3D établit un nouvel état de l'art sur plusieurs benchmarks et configurations. Dans un contexte de monde ouvert, il atteint 22,6/24,8 AP3D sur notre nouveau benchmark WildDet3D-Bench avec des invites textuelles et de type boîte. Sur Omni3D, il atteint 34,2/36,4 AP3D avec des invites textuelles et de type boîte, respectivement. En évaluation zero-shot, il atteint 40,3/48,9 ODS sur Argoverse 2 et ScanNet. Il est à noter que l'intégration d'indices de profondeur au moment de l'inférence apporte des gains supplémentaires substantiels (+20,7 AP en moyenne sur toutes les configurations).
English
Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).
PDF2164April 14, 2026