Denken, Handelen, Bouwen: Een Agensgericht Raamwerk met Vision Language Models voor Zero-Shot 3D Visuele Verankering

Samenvatting

3D Visuele Gronding (3D-VG) heeft als doel objecten in 3D-scènes te lokaliseren aan de hand van beschrijvingen in natuurlijke taal. Hoewel recente vooruitgang met Vision-Language Models (VLMs) zero-shot mogelijkheden heeft verkend, lijden deze doorgaans onder een statische werkstroom die afhankelijk is van voorbewerkte 3D-puntenwolken, wat gronding in wezen degradeert tot voorstel-matching. Om deze afhankelijkheid te omzeilen, is onze kernmotivatie om de taak te ontkoppelen: gebruikmakend van 2D-VLMs om complexe ruimtelijke semantiek op te lossen, terwijl wordt vertrouwd op deterministische multi-view geometrie om de 3D-structuur te instantiëren. Gedreven door dit inzicht stellen we "Think, Act, Build (TAB)" voor, een dynamisch agent-gebaseerd framework dat 3D-VG-taken herformuleert als een generatief 2D-naar-3D reconstructieparadigma dat rechtstreeks op ruwe RGB-D streams opereert. Specifiek, geleid door een gespecialiseerde 3D-VG-vaardigheid, roept onze VLM-agent dynamisch visuele tools aan om het doelwit over 2D-frames te volgen en te reconstrueren. Cruciaal is dat, om het multi-view dekkingstekort veroorzaakt door strikte VLM semantische tracking te overwinnen, we de Semantisch-Verankerde Geometrische Expansie introduceren, een mechanisme dat eerst het doelwit verankert in een referentievideofragment en vervolgens multi-view geometrie benut om de ruimtelijke locatie ervan te propageren over niet-geobserveerde frames. Hierdoor kan de agent de 3D-representatie van het doelwit "Bouwen" door deze multi-view kenmerken samen te voegen via cameraparameters, waarbij 2D visuele aanwijzingen direct worden gemapt naar 3D-coördinaten. Verder, om een rigoureuze beoordeling te waarborgen, identificeren we gebreken zoals referentie-ambiguïteit en categoriefouten in bestaande benchmarks en verfijnen we de incorrecte queries handmatig. Uitgebreide experimenten op ScanRefer en Nr3D tonen aan dat ons framework, dat volledig vertrouwt op open-source modellen, aanzienlijk beter presteert dan eerdere zero-shot methoden en zelfs volledig supervised baseline-methoden overtreft.

English

3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.

Denken, Handelen, Bouwen: Een Agensgericht Raamwerk met Vision Language Models voor Zero-Shot 3D Visuele Verankering

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Samenvatting

Support