Group3D : Regroupement sémantique par MLLM pour la détection d'objets 3D en vocabulaire ouvert
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Auteurs: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Résumé
La détection 3D à vocabulaire ouvert vise à localiser et reconnaître des objets au-delà d'une taxonomie d'apprentissage fixe. Dans les configurations multi-vues RVB, les approches récentes découplent souvent la construction d'instances géométriques de l'étiquetage sémantique, générant des fragments agnostiques aux classes et attribuant a posteriori des catégories à vocabulaire ouvert. Bien que flexible, ce découplage laisse la construction d'instances gouvernée principalement par la cohérence géométrique, sans contraintes sémantiques durant la fusion. Lorsque les preuves géométriques sont dépendantes de la vue et incomplètes, cette fusion purement géométrique peut entraîner des erreurs d'association irréversibles, incluant la sur-fusion d'objets distincts ou la fragmentation d'une seule instance. Nous proposons Group3D, un cadre de détection 3D multi-vue à vocabulaire ouvert qui intègre directement des contraintes sémantiques dans le processus de construction d'instances. Group3D maintient un vocabulaire adaptatif à la scène dérivé d'un modèle de langage multimodal (MLLM) et l'organise en groupes de compatibilité sémantique qui encodent des équivalences de catégories inter-vues plausibles. Ces groupes agissent comme contraintes lors de la fusion : les fragments 3D sont associés uniquement lorsqu'ils satisfont à la fois la compatibilité sémantique et la cohérence géométrique. Cette fusion à porte sémantique atténue la sur-fusion pilotée par la géométrie tout en absorbant la variabilité catégorielle multi-vue. Group3D supporte les configurations avec poses connues et sans pose, en s'appuyant uniquement sur des observations RVB. Les expériences sur ScanNet et ARKitScenes démontrent que Group3D atteint des performances state-of-the-art en détection 3D multi-vue à vocabulaire ouvert, tout en présentant une forte généralisation dans des scénarios zero-shot. La page du projet est disponible à l'adresse https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.