Pensa, Agisci, Costruisci: un Framework Agente con Modelli Linguaggio-Visione per il Grounding Visivo 3D Zero-Shot
Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
April 1, 2026
Autori: Haibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang
cs.AI
Abstract
Il grounding visivo 3D (3D-VG) mira a localizzare oggetti in scene tridimensionali attraverso descrizioni in linguaggio naturale. Sebbene i recenti progressi che sfruttano modelli visione-linguaggio (VLM) abbiano esplorato possibilità zero-shot, questi tipicamente soffrono di un flusso di lavoro statico basato su nuvole di punti 3D pre-elaborate, degradando di fatto il grounding in un matching di proposte. Per bypassare questa dipendenza, la nostra motivazione centrale è disaccoppiare il compito: sfruttare i VLM 2D per risolvere la complessa semantica spaziale, affidandosi alla geometria multivista deterministica per istanziare la struttura 3D. Guidati da questa intuizione, proponiamo "Think, Act, Build (TAB)", un framework agente dinamico che riformula i compiti di 3D-VG come un paradigma ricostruttivo generativo da 2D a 3D che opera direttamente su flussi RGB-D grezzi. Nello specifico, guidato da un'abilità specializzata per il 3D-VG, il nostro agente VLM invoca dinamicamente strumenti visivi per tracciare e ricostruire il target attraverso frame 2D. Crucialmente, per superare il deficit di copertura multivista causato dal tracciamento semantico rigoroso del VLM, introduciamo l'Espansione Geometrica ancorata semanticamente, un meccanismo che prima ancora il target in un clip video di riferimento e poi sfrutta la geometria multivista per propagarne la posizione spaziale attraverso frame non osservati. Ciò permette all'agente di "Costruire" la rappresentazione 3D del target aggregando queste caratteristiche multivista tramite i parametri della telecamera, mappando direttamente gli indizi visivi 2D alle coordinate 3D. Inoltre, per garantire una valutazione rigorosa, abbiamo identificato difetti come l'ambiguità di riferimento e errori di categoria nei benchmark esistenti e abbiamo raffinato manualmente le query errate. Esperimenti estensivi su ScanRefer e Nr3D dimostrano che il nostro framework, basato interamente su modelli open-source, supera significativamente i metodi zero-shot precedenti e supera persino i baseline supervisionati.
English
3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.