Думай, Действуй, Строй: Агентный фреймворк с визуально-языковыми моделями для zero-shot 3D визуального позиционирования

Аннотация

Задача трехмерной визуальной локализации (3D-VG) заключается в определении местоположения объектов в трехмерных сценах с помощью описаний на естественном языке. Хотя недавние достижения с использованием моделей «визуальный язык» (Vision-Language Models, VLM) исследовали возможности zero-shot подхода, они обычно страдают от статичного рабочего процесса, опирающегося на предобработанные облака 3D-точек, что по сути сводит локализацию к сопоставлению предложений (proposal matching). Чтобы обойти эту зависимость, наша ключевая идея состоит в разделении задачи: использование 2D VLM для разрешения сложной пространственной семантики, в то время как за создание 3D-структуры отвечает детерминированная многовидовая геометрия. Руководствуясь этим подходом, мы предлагаем «Think, Act, Build (TAB)» — динамическую агентскую структуру, которая переформулирует задачи 3D-VG как парадигму генеративной 2D-to-3D реконструкции, работающую непосредственно с исходными RGB-D потоками. В частности, под управлением специализированного навыка 3D-VG наш VLM-агент динамически задействует визуальные инструменты для отслеживания и реконструкции целевого объекта по 2D-кадрам. Ключевым моментом является то, что для преодоления дефицита многовидового охвата, вызванного строгим семантическим отслеживанием VLM, мы вводим Semantic-Anchored Geometric Expansion — механизм, который сначала закрепляет цель в референсном видеофрагменте, а затем использует многовидовую геометрию для распространения её пространственного местоположения на ненаблюдаемых кадрах. Это позволяет агенту «строить» 3D-представление цели путем агрегирования этих многовидовых признаков с помощью параметров камеры, напрямую отображая 2D-визуальные сигналы в 3D-координаты. Кроме того, для обеспечения строгой оценки мы выявляем такие недостатки, как неоднозначность ссылок (reference ambiguity) и категориальные ошибки в существующих бенчмарках, и вручную исправляем некорректные запросы. Многочисленные эксперименты на ScanRefer и Nr3D показывают, что наша структура, полностью полагающаяся на модели с открытым исходным кодом, значительно превосходит предыдущие zero-shot методы и даже превосходит полностью контролируемые базовые линии.

English

3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.

Думай, Действуй, Строй: Агентный фреймворк с визуально-языковыми моделями для zero-shot 3D визуального позиционирования

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Аннотация

Support