UniFunc3D: Fundamentación Espacio-Temporal Activa Unificada para la Segmentación de Funcionalidad en 3D

Resumen

La segmentación funcional en escenas 3D requiere que un agente interprete instrucciones implícitas en lenguaje natural para convertirlas en máscaras precisas de elementos interactivos de grano fino. Los métodos existentes dependen de pipelines fragmentados que sufren de ceguera visual durante el análisis inicial de tareas. Observamos que estos métodos están limitados por una selección de fotogramas heurística, pasiva y de escala única. Presentamos UniFunc3D, un marco unificado y libre de entrenamiento que trata al modelo de lenguaje grande multimodal como un observador activo. Al consolidar el razonamiento semántico, temporal y espacial en un único pase hacia adelante, UniFunc3D realiza un razonamiento conjunto para fundamentar la descomposición de tareas en evidencia visual directa. Nuestro enfoque introduce una fundamentación espacio-temporal activa con una estrategia de coarse-to-fine. Esto permite al modelo seleccionar fotogramas de vídeo correctos de forma adaptativa y centrarse en las partes interactivas de alto detalle, preservando al mismo tiempo el contexto global necesario para la desambiguación. En SceneFun3D, UniFunc3D logra un rendimiento de vanguardia, superando ampliamente tanto a los métodos libres de entrenamiento como a los basados en entrenamiento, con una mejora relativa del 59.9% en mIoU, sin ningún entrenamiento específico de la tarea. El código se publicará en nuestra página del proyecto: https://jiaying.link/unifunc3d.

English

Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.

UniFunc3D: Fundamentación Espacio-Temporal Activa Unificada para la Segmentación de Funcionalidad en 3D

UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

Resumen

Support