Group3D: Agrupamento Semântico Orientado por MLLM para Detecção de Objetos 3D com Vocabulário Livre
Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
March 23, 2026
Autores: Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
cs.AI
Resumo
A detecção de objetos 3D de vocabulário aberto tem como objetivo localizar e reconhecer objetos além de uma taxonomia de treinamento fixa. Em configurações RGB multi-visão, abordagens recentes frequentemente desacoplam a construção de instâncias baseada em geometria da rotulagem semântica, gerando fragmentos agnósticos de classe e atribuindo categorias de vocabulário aberto posteriormente. Embora flexível, tal desacoplamento deixa a construção de instâncias governada principalmente pela consistência geométrica, sem restrições semânticas durante a fusão. Quando a evidência geométrica é dependente da visão e incompleta, esta fusão baseada apenas em geometria pode levar a erros de associação irreversíveis, incluindo a fusão excessiva de objetos distintos ou a fragmentação de uma única instância. Propomos o Group3D, uma estrutura de detecção 3D de vocabulário aberto multi-visão que integra restrições semânticas diretamente no processo de construção de instâncias. O Group3D mantém um vocabulário adaptativo à cena derivado de um modelo de linguagem grande multimodal (MLLM) e o organiza em grupos de compatibilidade semântica que codificam a equivalência de categoria plausível entre vistas. Estes grupos atuam como restrições no momento da fusão: fragmentos 3D são associados apenas quando satisfazem tanto a compatibilidade semântica quanto a consistência geométrica. Esta fusão semanticamente controlada mitiga a fusão excessiva orientada por geometria, ao mesmo tempo que absorve a variabilidade de categorias multi-visão. O Group3D suporta configurações com pose conhecida e livre de pose, dependendo apenas de observações RGB. Experimentos no ScanNet e ARKitScenes demonstram que o Group3D alcança desempenho state-of-the-art em detecção 3D de vocabulário aberto multi-visão, exibindo forte generalização em cenários zero-shot. A página do projeto está disponível em https://ubin108.github.io/Group3D/.
English
Open-vocabulary 3D object detection aims to localize and recognize objects beyond a fixed training taxonomy. In multi-view RGB settings, recent approaches often decouple geometry-based instance construction from semantic labeling, generating class-agnostic fragments and assigning open-vocabulary categories post hoc. While flexible, such decoupling leaves instance construction governed primarily by geometric consistency, without semantic constraints during merging. When geometric evidence is view-dependent and incomplete, this geometry-only merging can lead to irreversible association errors, including over-merging of distinct objects or fragmentation of a single instance. We propose Group3D, a multi-view open-vocabulary 3D detection framework that integrates semantic constraints directly into the instance construction process. Group3D maintains a scene-adaptive vocabulary derived from a multimodal large language model (MLLM) and organizes it into semantic compatibility groups that encode plausible cross-view category equivalence. These groups act as merge-time constraints: 3D fragments are associated only when they satisfy both semantic compatibility and geometric consistency. This semantically gated merging mitigates geometry-driven over-merging while absorbing multi-view category variability. Group3D supports both pose-known and pose-free settings, relying only on RGB observations. Experiments on ScanNet and ARKitScenes demonstrate that Group3D achieves state-of-the-art performance in multi-view open-vocabulary 3D detection, while exhibiting strong generalization in zero-shot scenarios. The project page is available at https://ubin108.github.io/Group3D/.