Group3D: Agrupación Semántica Basada en MLLM para la Detección de Objetos 3D con Vocabulario Abierto
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Autores: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Resumen
La detección de objetos 3D de vocabulario abierto tiene como objetivo localizar y reconocer objetos más allá de una taxonomía de entrenamiento fija. En entornos multivista con RGB, los enfoques recientes a menudo desacoplan la construcción de instancias basada en geometría del etiquetado semántico, generando fragmentos agnósticos a la clase y asignando categorías de vocabulario abierto a posteriori. Aunque son flexibles, dicha desacoplamiento hace que la construcción de instancias se rija principalmente por la consistencia geométrica, sin restricciones semánticas durante la fusión. Cuando la evidencia geométrica es dependiente de la vista e incompleta, esta fusión basada únicamente en geometría puede conducir a errores de asociación irreversibles, incluyendo la fusión excesiva de objetos distintos o la fragmentación de una única instancia. Proponemos Group3D, un marco de detección 3D de vocabulario abierto multivista que integra restricciones semánticas directamente en el proceso de construcción de instancias. Group3D mantiene un vocabulario adaptativo a la escena derivado de un modelo de lenguaje grande multimodal (MLLM) y lo organiza en grupos de compatibilidad semántica que codifican equivalencias de categoría plausibles entre vistas. Estos grupos actúan como restricciones durante la fusión: los fragmentos 3D se asocian solo cuando satisfacen tanto la compatibilidad semántica como la consistencia geométrica. Esta fusión controlada semánticamente mitiga la fusión excesiva impulsada por la geometría, al tiempo que absorbe la variabilidad categorial multivista. Group3D admite configuraciones con poses conocidas y libres, dependiendo únicamente de observaciones RGB. Los experimentos en ScanNet y ARKitScenes demuestran que Group3D logra un rendimiento de vanguardia en detección 3D de vocabulario abierto multivista, mientras exhibe una fuerte generalización en escenarios de cero disparos. La página del proyecto está disponible en https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.