ChatPaper.aiChatPaper

Group3D: 개방형 어휘 3D 객체 감지를 위한 MLLM 기반 의미론적 그룹화

Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

March 23, 2026
저자: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI

초록

오픈-보커블러리 3D 객체 탐지는 고정된 학습 분류체계를 넘어서는 객체의 위치를 파악하고 인식하는 것을 목표로 합니다. 다중 뷰 RGB 환경에서 최근 접근법들은 기하학 기반 인스턴스 구성과 의미론적 레이블 지정을 분리하여, 클래스 독립적인 프래그먼트를 생성한 후 사후적으로 오픈-보커블러리 범주를 할당하는 방식을 자주 사용합니다. 이러한 분리 방식은 유연하지만, 인스턴스 구성이 주로 기하학적 일관성에 의해 지배되어 병합 과정 중 의미론적 제약이 결여됩니다. 기하학적 증거가 뷰 의존적이고 불완전할 때, 이러한 기하학 전용 병합은 서로 다른 객체의 과도한 병합이나 단일 인스턴스의 분할을 포함한 되돌릴 수 없는 연관 오류를 초래할 수 있습니다. 우리는 의미론적 제약을 인스턴스 구성 과정에 직접 통합하는 다중 뷰 오픈-보커블러리 3D 탐지 프레임워크인 Group3D를 제안합니다. Group3D는 다중 모드 대형 언어 모델(MLLM)에서 파생된 장면 적응형 어휘 집합을 유지하며, 이를 다중 뷰에서 타당한 범주 등가성을 인코딩하는 의미론적 호환성 그룹으로 구성합니다. 이러한 그룹들은 병합 시점의 제약 조건으로 작용합니다: 3D 프래그먼트들은 의미론적 호환성과 기하학적 일관성 모두를 충족할 때만 연관됩니다. 이러한 의미론적으로 제어되는 병합은 기하학에 의한 과도한 병합을 완화하면서 다중 뷰 범주 변동성을 흡수합니다. Group3D는 포즈 정보가 알려진 설정과 알려지지 않은 설정을 모두 지원하며, RGB 관측만을 의존합니다. ScanNet과 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈-보커블러리 3D 탐지에서 최첨단 성능을 달성하는 동시에 제로-샷 시나리오에서 강력한 일반화 능력을 보여줍니다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/에서 확인할 수 있습니다.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.
PDF252March 25, 2026