생각하고, 행동하고, 구축하라: 제로샷 3D 시각적 접지를 위한 비전 언어 모델 기반 에이전트 프레임워크
Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
April 1, 2026
저자: Haibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang
cs.AI
초록
3D 시각 기반 객체 위치 특정(3D-VG)은 자연어 기술을 통해 3D 장면에서 객체를 위치 특정하는 것을 목표로 합니다. 비전-언어 모델(VLM)을 활용한 최근 발전들이 제로샷 가능성을 탐구했지만, 이들은 일반적으로 전처리된 3D 포인트 클라우드에 의존하는 정적 워크플로로 인해 본질적으로 위치 특정이 제안 영역 매칭으로 전락하는 문제를 겪습니다. 이러한 의존성을 극복하기 위해 우리의 핵심 동기는 작업을 분리하는 것입니다: 복잡한 공간 의미론을 해결하기 위해 2D VLM을 활용하는 한편, 결정론적인 다중 뷰 기하학에 의존하여 3D 구조를 구체화합니다. 이 통찰력을 바탕으로 우리는 원본 RGB-D 스트림에서 직접 작동하는 생성적 2D-to-3D 재구성 패러다임으로 3D-VG 작업을 재정의하는 동적 에이전트 프레임워크 "Think, Act, Build(TAB)"를 제안합니다. 구체적으로, 전문화된 3D-VG 기술의 지도를 받아 우리의 VLM 에이전트는 시각적 도구를 동적으로 호출하여 2D 프레임 전체에서 대상을 추적하고 재구성합니다. 중요한 것은, 엄격한 VLM 의미론적 추적로 인한 다중 뷰 커버리지 부족을 극복하기 위해 우리는 의미론적 정착 기하학적 확장을 도입합니다. 이 메커니즘은 먼저 기준 비디오 클립에서 대상을 정착시킨 다음, 다중 뷰 기하학을 활용하여 관찰되지 않은 프레임 전체에 그 공간 위치를 전파합니다. 이를 통해 에이전트는 카메라 매개변수를 통해 이러한 다중 뷰 특징들을 집계함으로써 대상의 3D 표현을 "구축"하고, 2D 시각적 단서를 3D 좌표에 직접 매핑할 수 있습니다. 더 나아가, 엄격한 평가를 보장하기 위해 우리는 기존 벤치마크의 참조 모호성 및 범주 오류와 같은 결함을 식별하고 부정확한 쿼리를 수동으로 정제합니다. ScanRefer 및 Nr3D에 대한 광범위한 실험을 통해 오픈소스 모델에만 전적으로 의존하는 우리 프레임워크가 기존 제로샷 방법들을 크게 능가하고 완전 지도 학습 기준선보다도 우수한 성능을 보임을 입증합니다.
English
3D Visual Grounding (3D-VG) aims to localize objects in 3D scenes via natural language descriptions. While recent advancements leveraging Vision-Language Models (VLMs) have explored zero-shot possibilities, they typically suffer from a static workflow relying on preprocessed 3D point clouds, essentially degrading grounding into proposal matching. To bypass this reliance, our core motivation is to decouple the task: leveraging 2D VLMs to resolve complex spatial semantics, while relying on deterministic multi-view geometry to instantiate the 3D structure. Driven by this insight, we propose "Think, Act, Build (TAB)", a dynamic agentic framework that reformulates 3D-VG tasks as a generative 2D-to-3D reconstruction paradigm operating directly on raw RGB-D streams. Specifically, guided by a specialized 3D-VG skill, our VLM agent dynamically invokes visual tools to track and reconstruct the target across 2D frames. Crucially, to overcome the multi-view coverage deficit caused by strict VLM semantic tracking, we introduce the Semantic-Anchored Geometric Expansion, a mechanism that first anchors the target in a reference video clip and then leverages multi-view geometry to propagate its spatial location across unobserved frames. This enables the agent to "Build" the target's 3D representation by aggregating these multi-view features via camera parameters, directly mapping 2D visual cues to 3D coordinates. Furthermore, to ensure rigorous assessment, we identify flaws such as reference ambiguity and category errors in existing benchmarks and manually refine the incorrect queries. Extensive experiments on ScanRefer and Nr3D demonstrate that our framework, relying entirely on open-source models, significantly outperforms previous zero-shot methods and even surpasses fully supervised baselines.