Group3D: MLLM-gestuurd semantisch groeperen voor open-vocabularium 3D-objectdetectie
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Auteurs: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Samenvatting
Open-vocabulary 3D-objectdetectie heeft als doel objecten te lokaliseren en te herkennen buiten een vaste trainings-taxonomie om. In multi-view RGB-instellingen ontkoppelen recente benaderingen vaak op geometrie gebaseerde instantieconstructie van semantische labeling, waarbij klasse-agnostische fragmenten worden gegenereerd en open-vocabulary-categorieën achteraf worden toegewezen. Hoewel flexibel, laat een dergelijke ontkoppeling de instantieconstructie voornamelijk gestuurd door geometrische consistentie, zonder semantische beperkingen tijdens het samenvoegen. Wanneer geometrische aanwijzingen view-dependent en incompleet zijn, kan dit puur op geometrie gebaseerde samenvoegen leiden tot onomkeerbare associatiefouten, waaronder overmatig samenvoegen van verschillende objecten of fragmentatie van een enkel exemplaar. Wij stellen Group3D voor, een multi-view open-vocabulary 3D-detectiekader dat semantische beperkingen rechtstreeks integreert in het instantieconstructieproces. Group3D houdt een scene-adaptieve vocabulaire aan, afgeleid van een multimodaal groot taalmodel (MLLM), en organiseert deze in semantische compatibiliteitsgroepen die plausibele cross-view categorie-equivalentie coderen. Deze groepen fungeren als beperkingen tijdens het samenvoegen: 3D-fragmenten worden alleen geassocieerd wanneer ze zowel aan semantische compatibiliteit als geometrische consistentie voldoen. Dit semantisch gegateerde samenvoegen vermindert geometriegestuurd overmatig samenvoegen terwijl het variabiliteit in multi-view categorieën absorbeert. Group3D ondersteunt zowel pose-known als pose-free instellingen, en vertrouwt uitsluitend op RGB-waarnemingen. Experimenten op ScanNet en ARKitScenes tonen aan dat Group3D state-of-the-art prestaties bereikt in multi-view open-vocabulary 3D-detectie, terwijl het sterke generalisatie vertoont in zero-shot scenario's. De projectpagina is beschikbaar op https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.