Pensar, Actuar, Construir: Un Marco Agéntico con Modelos de Lenguaje Visual para la Fundamentación Visual 3D de Cero Disparos
Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
April 1, 2026
Autores: Haibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang
cs.AI
Resumen
La Localización Visual 3D (3D-VG) tiene como objetivo localizar objetos en escenas 3D mediante descripciones en lenguaje natural. Si bien los avances recientes que aprovechan los Modelos de Visión y Lenguaje (VLM) han explorado posibilidades de zero-shot, generalmente adolecen de un flujo de trabajo estático que depende de nubes de puntos 3D preprocesadas, degradando esencialmente la localización a una comparación de propuestas. Para eludir esta dependencia, nuestra motivación central es desacoplar la tarea: aprovechar los VLM 2D para resolver la semántica espacial compleja, mientras se confía en la geometría multivista determinista para instanciar la estructura 3D. Impulsados por esta idea, proponemos "Think, Act, Build (TAB)", un marco de trabajo agentico dinámico que reformula las tareas de 3D-VG como un paradigma de reconstrucción generativa de 2D a 3D que opera directamente sobre flujos RGB-D en bruto. Específicamente, guiado por una habilidad especializada en 3D-VG, nuestro agente VLM invoca dinámicamente herramientas visuales para rastrear y reconstruir el objetivo a través de fotogramas 2D. Crucialmente, para superar el déficit de cobertura multivista causado por el rastreo semántico estricto del VLM, introducimos la Expansión Geométrica Anclada Semánticamente, un mecanismo que primero ancla el objetivo en un clip de video de referencia y luego aprovecha la geometría multivista para propagar su ubicación espacial a través de fotogramas no observados. Esto permite al agente "Construir" la representación 3D del objetivo agregando estas características multivista mediante parámetros de cámara, mapeando directamente las pistas visuales 2D a coordenadas 3D. Además, para garantizar una evaluación rigurosa, identificamos defectos como la ambigüedad de referencia y errores de categoría en los benchmarks existentes y refinamos manualmente las consultas incorrectas. Experimentos exhaustivos en ScanRefer y Nr3D demuestran que nuestro marco, que depende completamente de modelos de código abierto, supera significativamente a los métodos zero-shot anteriores e incluso sobrepasa a las líneas base totalmente supervisadas.
English
3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.