ChatPaper.aiChatPaper

WildDet3D: 야생 환경에서 확장 가능한 프롬프트 기반 3D 감지 기술

WildDet3D: Scaling Promptable 3D Detection in the Wild

April 9, 2026
저자: Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Mattew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
cs.AI

초록

단일 이미지로부터 3D 객체를 이해하는 것은 공간 지능의 핵심 기반입니다. 이 목표를 위한 중요한 단계는 단안 3D 객체 검출로, 입력 RGB 이미지로부터 객체의 범위, 위치, 방향을 복원하는 것을 의미합니다. 개방형 환경에서 실용적으로 사용되려면 이러한 검출기가 폐쇄형 범주를 넘어 일반화되어야 하며, 다양한 프롬프트 방식을 지원하고, 가능할 때 기하학적 단서를 활용해야 합니다. 그러나 두 가지 병목 현상으로 발전이 저해되고 있습니다: 기존 방법은 단일 프롬프트 유형만을 위해 설계되어 추가 기하학적 단서를 통합할 메커니즘이 부족하며, 현재 3D 데이터셋은 통제된 환경의 좁은 범주만을 다루어 개방형 환경 전이를 제한합니다. 본 연구에서는 이 두 격차를 모두 해소합니다. 첫째, 텍스트, 점, 박스 프롬프트를 기본적으로 수용하고 추론 시 보조 깊이 신호를 통합할 수 있는 통합 기하학 인식 아키텍처인 WildDet3D를 소개합니다. 둘째, 기존 2D 주석으로부터 후보 3D 박스를 생성하고 인간이 검증한 것만 보유하여 다양한 실제 장면에서 13.5K 개 범주에 걸쳐 100만 장 이상의 이미지를 제공하는 역대 최대 규모의 개방형 3D 검출 데이터셋인 WildDet3D-Data를 제시합니다. WildDet3D는 여러 벤치마크와 설정에서 새로운 최첨단 성능을确立합니다. 개방형 환경 설정에서 텍스트 및 박스 프롬프트를 사용한 새로 도입된 WildDet3D-Bench에서 22.6/24.8 AP3D를 달성합니다. Omni3D에서는 텍스트와 박스 프롬프트로 각각 34.2/36.4 AP3D에 도달합니다. 제로샷 평가에서는 Argoverse 2와 ScanNet에서 40.3/48.9 ODS를 달성합니다. 특히 추론 시 깊이 단서를 통합하면 상당한 추가 성능 향상(모든 설정 평균 +20.7 AP)을 얻습니다.
English
Understanding objects in 3D from a single image is a cornerstone of spatial intelligence. A key step toward this goal is monocular 3D object detection--recovering the extent, location, and orientation of objects from an input RGB image. To be practical in the open world, such a detector must generalize beyond closed-set categories, support diverse prompt modalities, and leverage geometric cues when available. Progress is hampered by two bottlenecks: existing methods are designed for a single prompt type and lack a mechanism to incorporate additional geometric cues, and current 3D datasets cover only narrow categories in controlled environments, limiting open-world transfer. In this work we address both gaps. First, we introduce WildDet3D, a unified geometry-aware architecture that natively accepts text, point, and box prompts and can incorporate auxiliary depth signals at inference time. Second, we present WildDet3D-Data, the largest open 3D detection dataset to date, constructed by generating candidate 3D boxes from existing 2D annotations and retaining only human-verified ones, yielding over 1M images across 13.5K categories in diverse real-world scenes. WildDet3D establishes a new state-of-the-art across multiple benchmarks and settings. In the open-world setting, it achieves 22.6/24.8 AP3D on our newly introduced WildDet3D-Bench with text and box prompts. On Omni3D, it reaches 34.2/36.4 AP3D with text and box prompts, respectively. In zero-shot evaluation, it achieves 40.3/48.9 ODS on Argoverse 2 and ScanNet. Notably, incorporating depth cues at inference time yields substantial additional gains (+20.7 AP on average across settings).
PDF2164April 14, 2026