UniFunc3D : Ancrage spatio-temporel actif unifié pour la segmentation de la fonctionnalité 3D

Résumé

La segmentation fonctionnelle dans les scènes 3D nécessite qu'un agent ancre des instructions naturelles implicites dans des masques précis d'éléments interactifs à granularité fine. Les méthodes existantes reposent sur des pipelines fragmentés qui souffrent de cécité visuelle lors de l'analyse initiale des tâches. Nous observons que ces méthodes sont limitées par une sélection d'images monocouche, passive et heuristique. Nous présentons UniFunc3D, un cadre unifié et sans apprentissage qui traite le grand modèle de langage multimodal comme un observateur actif. En consolidant le raisonnement sémantique, temporel et spatial en une seule passe avant, UniFunc3D effectue un raisonnement conjoint pour ancrer la décomposition des tâches dans des preuves visuelles directes. Notre approche introduit un ancrage spatio-temporel actif avec une stratégie grossier-vers-fin. Cela permet au modèle de sélectionner adaptativement les bonnes images vidéo et de se concentrer sur les parties interactives à haut niveau de détail tout en préservant le contexte global nécessaire à la désambiguïsation. Sur SceneFun3D, UniFunc3D obtient des performances à l'état de l'art, surpassant largement les méthodes sans apprentissage et avec apprentissage avec une amélioration relative de 59,9% du mIoU, sans aucun entraînement spécifique à la tâche. Le code sera publié sur notre page de projet : https://jiaying.link/unifunc3d.

English

Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.

UniFunc3D : Ancrage spatio-temporel actif unifié pour la segmentation de la fonctionnalité 3D

UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

Résumé

Support