Denken, Handeln, Bauen: Ein agentenbasiertes Framework mit Vision-Language-Modellen für Zero-Shot 3D-Visual-Grounding
Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
April 1, 2026
Autoren: Haibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang
cs.AI
Zusammenfassung
3D Visual Grounding (3D-VG) zielt darauf ab, Objekte in 3D-Szenen anhand natürlicher Sprachbeschreibungen zu lokalisieren. Obwohl neuere Fortschritte unter Verwendung von Vision-Language-Modellen (VLMs) Zero-Shot-Möglichkeiten erkundet haben, leiden diese typischerweise unter einem statischen Workflow, der auf vorverarbeiteten 3D-Punktwolken basiert und die Lokalisierung im Wesentlichen auf ein Abgleichen von Vorschlägen reduziert. Um diese Abhängigkeit zu umgehen, ist unsere zentrale Motivation, die Aufgabe zu entkoppeln: Wir nutzen 2D-VLMs, um komplexe räumliche Semantik aufzulösen, während wir uns auf deterministische Multi-View-Geometrie stützen, um die 3D-Struktur zu instanziieren. Getrieben von dieser Erkenntnis schlagen wir "Think, Act, Build (TAB)" vor – einen dynamischen, agentenbasierten Framework, der 3D-VG-Aufgaben als ein generatives 2D-zu-3D-Rekonstruktionsparadigma neu formuliert, das direkt auf Rohdaten von RGB-D-Streams operiert. Konkret ruft unser VLM-Agent, geleitet von einer spezialisierten 3D-VG-Fähigkeit, dynamisch visuelle Werkzeuge auf, um das Zielobjekt über 2D-Bilder hinweg zu verfolgen und zu rekonstruieren. Entscheidend ist, dass wir zur Überwindung des Multi-View-Abdeckungsdefizits, das durch die strikte semantische Verfolgung des VLMs verursacht wird, die Semantic-Anchored Geometric Expansion einführen – einen Mechanismus, der das Ziel zunächst in einem Referenz-Videoclip verankert und dann Multi-View-Geometrie nutzt, um seine räumliche Position über nicht beobachtete Bilder hinweg zu propagieren. Dies ermöglicht es dem Agenten, die 3D-Repräsentation des Ziels durch Aggregation dieser Multi-View-Merkmale via Kameraparameter zu "bauen" und so 2D-visuelle Hinweise direkt 3D-Koordinaten zuzuordnen. Darüber hinaus identifizieren wir zur Gewährleistung einer rigorosen Bewertung Mängel wie Referenzunschärfe und Kategoriefehler in bestehenden Benchmarks und verfeinern die fehlerhaften Anfragen manuell. Umfangreiche Experimente auf ScanRefer und Nr3D zeigen, dass unser Framework, das vollständig auf Open-Source-Modellen basiert, frühere Zero-Shot-Methoden signifikant übertrifft und sogar vollüberwachte Baseline-Methoden übertrifft.
English
3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.