Group3D: Raggruppamento Semantico Guidato da MLLM per il Rilevamento 3D di Oggetti a Vocabolario Aperto
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Autori: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Abstract
La rilevazione 3D open-vocabulary mira a localizzare e riconoscere oggetti al di là di una tassonomia di addestramento fissa. Negli ambienti multi-vista RGB, gli approcci recenti spesso disaccoppiano la costruzione di istanze basata sulla geometria dall'etichettatura semantica, generando frammenti classe-agnostici e assegnando categorie open-vocabulary in un secondo momento. Sebbene flessibile, tale disaccoppiamento fa sì che la costruzione delle istanze sia governata principalmente dalla coerenza geometrica, senza vincoli semantici durante la fusione. Quando l'evidenza geometrica è dipendente dalla vista e incompleta, questa fusione basata solo sulla geometria può portare a errori di associazione irreversibili, inclusa la sovra-fusione di oggetti distinti o la frammentazione di una singola istanza. Proponiamo Group3D, un framework di rilevazione 3D open-vocabulary multi-vista che integra vincoli semantici direttamente nel processo di costruzione delle istanze. Group3D mantiene un vocabolario adattivo alla scena derivato da un modello linguistico multimodale di grandi dimensioni (MLLM) e lo organizza in gruppi di compatibilità semantica che codificano plausibili equivalenze di categoria cross-vista. Questi gruppi agiscono come vincoli al momento della fusione: i frammenti 3D vengono associati solo quando soddisfano sia la compatibilità semantica che la coerenza geometrica. Questa fusione semanticamente controllata mitiga la sovra-fusione guidata dalla geometria, assorbendo al contempo la variabilità di categoria multi-vista. Group3D supporta sia impostazioni con pose note che libere, basandosi solo su osservazioni RGB. Esperimenti su ScanNet e ARKitScenes dimostrano che Group3D raggiunge prestazioni all'avanguardia nella rilevazione 3D open-vocabulary multi-vista, mostrando al contempo una forte generalizzazione in scenari zero-shot. La pagina del progetto è disponibile all'indirizzo https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.