ChatPaper.aiChatPaper

WildDet3D: Масштабируемое промптовое 3D-детектирование в естественных условиях

WildDet3D: Scaling Promptable 3D Detection in the Wild

April 9, 2026
Авторы: Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Mattew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
cs.AI

Аннотация

Распознавание трехмерных объектов по одному изображению является краеугольным камнем пространственного интеллекта. Ключевым шагом к этой цели является монокулярное 3D-детектирование объектов — восстановление размеров, местоположения и ориентации объектов по входному RGB-изображению. Для практического применения в реальном мире такой детектор должен обобщаться за пределы закрытого набора категорий, поддерживать различные модальности промптов и использовать геометрические подсказки, когда они доступны. Прогрессу препятствуют два узких места: существующие методы разработаны для одного типа промптов и не имеют механизма для включения дополнительных геометрических подсказок, а текущие 3D-наборы данных охватывают лишь узкий спектр категорий в контролируемых условиях, что ограничивает перенос в открытый мир. В данной работе мы решаем обе проблемы. Во-первых, мы представляем WildDet3D — унифицированную геометрически-осознанную архитектуру, которая изначально принимает текстовые, точечные и боксовые промпты и может использовать вспомогательные сигналы глубины во время инференса. Во-вторых, мы представляем WildDet3D-Data, крупнейший на сегодняшний день открытый набор данных для 3D-детектирования, созданный путем генерации кандидатных 3D-боксов из существующих 2D-аннотаций и сохранения только проверенных человеком, что дает более 1 млн изображений по 13.5 тыс. категорий в разнообразных сценах реального мира. WildDet3D устанавливает новое состояние искусства в различных бенчмарках и настройках. В условиях открытого мира он достигает 22.6/24.8 AP3D на нашем новом WildDet3D-Bench с текстовыми и боксовыми промптами. На Omni3D он показывает 34.2/36.4 AP3D с текстовыми и боксовыми промптами соответственно. При zero-shot оценке он достигает 40.3/48.9 ODS на Argoverse 2 и ScanNet. Примечательно, что использование подсказок глубины во время инференса дает существенное дополнительное улучшение (+20.7 AP в среднем по всем настройкам).
English
Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).
PDF2164April 14, 2026