UniFunc3D: Унифицированное активное пространственно-временное обоснование для сегментации функциональности 3D-объектов
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
March 24, 2026
Авторы: Jiaying Lin, Dan Xu
cs.AI
Аннотация
Сегментация функциональных элементов в 3D-сценах требует от агента интерпретации неявных инструкций на естественном языке в виде точных масок взаимодействующих элементов мелкой детализации. Существующие методы опираются на фрагментированные конвейеры, страдающие от визуальной слепоты на этапе первоначального анализа задачи. Мы наблюдаем, что эти методы ограничены одномасштабным, пассивным и эвристическим выбором кадров. Мы представляем UniFunc3D — унифицированную не требующую обучения систему, которая рассматривает мультимодальную большую языковую модель как активного наблюдателя. Объединяя семантические, временные и пространственные рассуждения в единый прямой проход, UniFunc3D выполняет совместный анализ для привязки декомпозиции задачи к непосредственным визуальным данным. Наш подход вводит активную пространственно-временную привязку с использованием стратегии «от грубого к точному». Это позволяет модели адаптивно выбирать корректные видеокадры и фокусироваться на высокодетализированных интерактивных компонентах, сохраняя при этом глобальный контекст, необходимый для устранения неоднозначностей. На наборе данных SceneFun3D UniFunc3D демонстрирует наилучшие результаты, значительно превосходя как методы, не требующие обучения, так и обученные методы, с относительным улучшением mIoU на 59,9%, без какого-либо специализированного обучения. Код будет доступен на странице проекта: https://jiaying.link/unifunc3d.
English
Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.