UniFunc3D: Fundamentação Espaço-Temporal Ativa Unificada para Segmentação de Funcionalidades em 3D
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
March 24, 2026
Autores: Jiaying Lin, Dan Xu
cs.AI
Resumo
A segmentação de funcionalidades em cenas 3D requer que um agente interprete instruções implícitas em linguagem natural transformando-as em máscaras precisas de elementos interativos de granularidade fina. Os métodos existentes dependem de pipelines fragmentados que sofrem de cegueira visual durante a análise inicial da tarefa. Observamos que esses métodos são limitados pela seleção de quadros em escala única, passiva e heurística. Apresentamos o UniFunc3D, uma estrutura unificada e livre de treinamento que trata o modelo de linguagem grande multimodal como um observador ativo. Ao consolidar o raciocínio semântico, temporal e espacial em uma única passagem direta, o UniFunc3D realiza raciocínio conjunto para fundamentar a decomposição de tarefas em evidência visual direta. Nossa abordagem introduz a ancoragem espaço-temporal ativa com uma estratégia do grosso para o fino. Isso permite que o modelo selecione quadros de vídeo corretos de forma adaptativa e se concentre em partes interativas de alto detalhe, preservando o contexto global necessário para a desambiguação. No SceneFun3D, o UniFunc3D alcança desempenho state-of-the-art, superando tanto métodos livres de treinamento quanto baseados em treinamento por uma grande margem, com uma melhoria relativa de 59,9% no mIoU, sem qualquer treinamento específico para a tarefa. O código será liberado em nossa página do projeto: https://jiaying.link/unifunc3d.
English
Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.