Pensar, Agir, Construir: Um Framework Agente com Modelos de Linguagem Visual para Grounding 3D Zero-Shot

Resumo

O Grounding Visual 3D (3D-VG) tem como objetivo localizar objetos em cenas 3D por meio de descrições em linguagem natural. Embora avanços recentes que utilizam Modelos de Visão e Linguagem (VLMs) tenham explorado possibilidades *zero-shot*, eles geralmente sofrem com um fluxo de trabalho estático que depende de nuvens de pontos 3D pré-processadas, essencialmente degradando a tarefa de *grounding* para uma correspondência de propostas. Para contornar essa dependência, nossa motivação central é desacoplar a tarefa: aproveitar VLMs 2D para resolver semântica espacial complexa, enquanto dependemos da geometria multi-visão determinística para instanciar a estrutura 3D. Guiados por essa intuição, propomos "Think, Act, Build (TAB)", uma estrutura agentiva dinâmica que reformula tarefas 3D-VG como um paradigma generativo de reconstrução 2D-para-3D que opera diretamente em fluxos brutos RGB-D. Especificamente, guiado por uma habilidade especializada em 3D-VG, nosso agente VLM invoca dinamicamente ferramentas visuais para rastrear e reconstruir o alvo através de quadros 2D. Crucialmente, para superar o déficit de cobertura multi-visão causado pelo rastreamento semântico estrito do VLM, introduzimos a Expansão Geométrica Ancorada Semanticamente, um mecanismo que primeiro ancora o alvo em um clipe de vídeo de referência e depois aproveita a geometria multi-visão para propagar sua localização espacial através de quadros não observados. Isso permite que o agente "Construa" a representação 3D do alvo agregando essas características multi-visão por meio de parâmetros da câmera, mapeando diretamente pistas visuais 2D para coordenadas 3D. Além disso, para garantir uma avaliação rigorosa, identificamos falhas como ambiguidade de referência e erros de categoria em *benchmarks* existentes e refinamos manualmente as consultas incorretas. Experimentos extensivos no ScanRefer e Nr3D demonstram que nossa estrutura, dependendo inteiramente de modelos de código aberto, supera significativamente os métodos *zero-shot* anteriores e até mesmo ultrapassa as linhas de base totalmente supervisionadas.

English

3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.

Pensar, Agir, Construir: Um Framework Agente com Modelos de Linguagem Visual para Grounding 3D Zero-Shot

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Resumo

Support