Group3D: MLLM-gesteuerte semantische Gruppierung für Open-Vocabulary 3D-Objekterkennung
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Autoren: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Zusammenfassung
Open-vocabulary 3D-Objekterkennung zielt darauf ab, Objekte über eine feste Trainings-Taxonomie hinaus zu lokalisieren und zu erkennen. In Multi-View-RGB-Szenarien entkoppeln aktuelle Ansätze häufig geometriebasierte Instanzkonstruktion von semantischer Beschriftung, indem sie klassenagnostische Fragmente generieren und open-vocabulary-Kategorien nachträglich zuweisen. Obwohl flexibel, bleibt bei einer solchen Entkopplung die Instanzkonstruktion primär von geometrischer Konsistenz gesteuert, ohne semantische Zwänge während des Zusammenfühgens. Wenn geometrische Evidenz ansichtsabhängig und unvollständig ist, kann dieses rein geometrische Zusammenführen zu irreversiblen Assoziationsfehlern führen, einschließlich der Überfusionierung verschiedener Objekte oder der Fragmentierung einer einzelnen Instanz. Wir schlagen Group3D vor, einen Multi-View-open-vocabulary-3D-Erkennungsrahmen, der semantische Zwänge direkt in den Instanzkonstruktionsprozess integriert. Group3D verwaltet ein szenenadaptives Vokabular, das von einem multimodalen Large Language Model (MLLM) abgeleitet ist, und organisiert es in semantische Kompatibilitätsgruppen, die plausible äquivalente Kategorien über Ansichten hinweg kodieren. Diese Gruppen dienen als Zwänge beim Zusammenführen: 3D-Fragmente werden nur dann assoziiert, wenn sie sowohl semantische Kompatibilität als auch geometrische Konsistenz erfüllen. Diese semantisch gesteuerte Fusion mildert geometriebedingte Überfusionierung und integriert gleichzeitig Multi-View-Kategorievarianz. Group3D unterstützt sowohl pose-bekannte als auch pose-freie Settings und stützt sich ausschließlich auf RGB-Beobachtungen. Experimente auf ScanNet und ARKitScenes zeigen, dass Group3D state-of-the-art Leistung in der Multi-View-open-vocabulary-3D-Erkennung erreicht und gleichzeitig starke Generalisierung in Zero-Shot-Szenarien aufweist. Die Projektseite ist verfügbar unter https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.