WildDet3D: Масштабируемое промптовое 3D-детектирование в естественных условиях

Аннотация

Распознавание трехмерных объектов по одному изображению является краеугольным камнем пространственного интеллекта. Ключевым шагом к этой цели является монокулярное 3D-детектирование объектов — восстановление размеров, местоположения и ориентации объектов по входному RGB-изображению. Для практического применения в реальном мире такой детектор должен обобщаться за пределы закрытого набора категорий, поддерживать различные модальности промптов и использовать геометрические подсказки, когда они доступны. Прогрессу препятствуют два узких места: существующие методы разработаны для одного типа промптов и не имеют механизма для включения дополнительных геометрических подсказок, а текущие 3D-наборы данных охватывают лишь узкий спектр категорий в контролируемых условиях, что ограничивает перенос в открытый мир. В данной работе мы решаем обе проблемы. Во-первых, мы представляем WildDet3D — унифицированную геометрически-осознанную архитектуру, которая изначально принимает текстовые, точечные и боксовые промпты и может использовать вспомогательные сигналы глубины во время инференса. Во-вторых, мы представляем WildDet3D-Data, крупнейший на сегодняшний день открытый набор данных для 3D-детектирования, созданный путем генерации кандидатных 3D-боксов из существующих 2D-аннотаций и сохранения только проверенных человеком, что дает более 1 млн изображений по 13.5 тыс. категорий в разнообразных сценах реального мира. WildDet3D устанавливает новое состояние искусства в различных бенчмарках и настройках. В условиях открытого мира он достигает 22.6/24.8 AP3D на нашем новом WildDet3D-Bench с текстовыми и боксовыми промптами. На Omni3D он показывает 34.2/36.4 AP3D с текстовыми и боксовыми промптами соответственно. При zero-shot оценке он достигает 40.3/48.9 ODS на Argoverse 2 и ScanNet. Примечательно, что использование подсказок глубины во время инференса дает существенное дополнительное улучшение (+20.7 AP в среднем по всем настройкам).

English

Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).

WildDet3D: Масштабируемое промптовое 3D-детектирование в естественных условиях

WildDet3D: Scaling Promptable 3D Detection in the Wild

Аннотация

Support