UniFunc3D: Vereinheitlichte aktive räumlich-zeitliche Verankerung für 3D-Funktionalitätssegmentierung
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
March 24, 2026
Autoren: Jiaying Lin, Dan Xu
cs.AI
Zusammenfassung
Die Funktionssegmentierung in 3D-Szenen erfordert, dass ein Agent implizite natürlichsprachliche Anweisungen in präzise Masken fein granulärer interaktiver Elemente verankert. Bestehende Methoden basieren auf fragmentierten Verarbeitungsketten, die unter visueller Blindheit während der anfänglichen Aufgabenanalyse leiden. Wir beobachten, dass diese Methoden durch einstufige, passive und heuristische Bildauswahl limitiert sind. Wir stellen UniFunc3D vor, ein einheitliches und trainingsfreies Framework, das das multimodale Großsprachmodell als aktiven Beobachter behandelt. Durch die Konsolidierung von semantischem, zeitlichem und räumlichem Reasoning in einem einzigen Vorwärtsdurchlauf führt UniFunc3D gemeinsames Reasoning durch, um die Aufgabenzerlegung in direkten visuellen Evidenzen zu verankern. Unser Ansatz führt aktives räumlich-zeitliches Grounding mit einer Grob-zu-Fein-Strategie ein. Dies ermöglicht dem Modell, korrekte Videobilder adaptiv auszuwählen und sich auf hochdetaillierte interaktive Bereiche zu konzentrieren, während der globale Kontext zur Mehrdeutigkeitsauflösung erhalten bleibt. Auf SceneFun3D erzielt UniFunc3D state-of-the-art Leistung und übertrifft sowohl trainingsfreie als auch trainierte Methoden mit einer relativen Steigerung des mIoU von 59,9 % deutlich, ohne taskspezifisches Training. Der Code wird auf unserer Projektseite veröffentlicht: https://jiaying.link/unifunc3d.
English
Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.