UniFunc3D: Rilevamento Spazio-Temporale Attivo Unificato per la Segmentazione della Funzionalità 3D
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
March 24, 2026
Autori: Jiaying Lin, Dan Xu
cs.AI
Abstract
La segmentazione funzionale in scene 3D richiede che un agente ancori istruzioni implicite in linguaggio naturale a maschere precise di elementi interattivi a grana fine. I metodi esistenti si basano su pipeline frammentate che soffrono di cecità visiva durante l'analisi iniziale del compito. Osserviamo che questi metodi sono limitati da una selezione di frame euristicistica, passiva e a scala singola. Presentiamo UniFunc3D, un framework unificato e senza addestramento che tratta il modello linguistico multimodale di grandi dimensioni come un osservatore attivo. Consolidando il ragionamento semantico, temporale e spaziale in un'unica passata in avanti, UniFunc3D esegue un ragionamento congiunto per ancorare la scomposizione del compito all'evidenza visiva diretta. Il nostro approccio introduce un ancoraggio spazio-temporale attivo con una strategia dal grossolano al dettagliato. Ciò consente al modello di selezionare i fotogrammi video corretti in modo adattivo e di concentrarsi sulle parti interattive ad alto dettaglio, preservando al contempo il contesto globale necessario per la disambiguazione. Su SceneFun3D, UniFunc3D raggiunge prestazioni all'avanguardia, superando di ampio margine sia i metodi senza addestramento che quelli basati su addestramento, con un miglioramento relativo del 59,9% nel mIoU, senza alcun addestramento specifico per il compito. Il codice sarà rilasciato sulla nostra pagina progetto: https://jiaying.link/unifunc3d.
English
Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.