UniFunc3D: Uniforme Actieve Ruimtelijk-Temporele Grondslag voor 3D Functionaliteitssegmentatie
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
March 24, 2026
Auteurs: Jiaying Lin, Dan Xu
cs.AI
Samenvatting
Functionele segmentatie in 3D-scènes vereist dat een agent impliciete natuurlijke-taalinstructies verankert in precieze maskers van fijnmazige interactieve elementen. Bestaande methoden zijn gebaseerd op gefragmenteerde pijplijnen die lijden onder visuele blindheid tijdens de initiële taakparsing. Wij observeren dat deze methoden worden beperkt door enkelvoudige, passieve en heuristische frameselectie. Wij presenteren UniFunc3D, een uniform en trainingsvrij raamwerk dat het multimodale groottaalmodel behandelt als een actieve waarnemer. Door semantisch, temporeel en ruimtelijk redeneren te consolideren in een enkele voorwaartse pass, voert UniFunc3D gezamenlijk redeneren uit om taakdecompositie te verankeren in direct visueel bewijs. Onze aanpak introduceert actieve ruimtelijk-temporele verankering met een coarse-to-fine strategie. Hierdoor kan het model adaptief de juiste videoframes selecteren en zich concentreren op interactieve onderdelen met hoog detail, terwijl de globale context behouden blijft die nodig is voor disambiguatie. Op SceneFun3D behaalt UniFunc3D state-of-the-art prestaties, waarbij het zowel trainingsvrije als trainingsgebaseerde methoden met een grote marge overtreft met een relatieve verbetering van 59,9% mIoU, zonder enige taakspecifieke training. Code zal worden vrijgegeven op onze projectpagina: https://jiaying.link/unifunc3d.
English
Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.