SpaceTools: 이중 상호작용 강화학습을 통한 도구 증강 공간 추론
SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
December 3, 2025
저자: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI
초록
비전 언어 모델(VLM)은 정성적인 시각 이해 능력이 뛰어나지만, 구현형 애플리케이션에 필요한 정량적으로 정밀한 공간 추론에는 어려움을 겪습니다. 에이전트 패러다임은 VLM이 깊이 추정기, 분할 모델, 포즈 추정기 등 이러한 능력을 보강할 다양한 도구를 활용할 수 있음을 시사합니다. 그러나 VLM의 최적 도구 사용 패턴 발견 능력을 제한하는 수동 프롬프트 전략이나 고정된 사전 정의 도구 파이프라인에만 의존하지 않고 이 비전을 실현하는 방법은 여전히 해결 과제로 남아 있습니다. 강화 학습은 이러한 격차를 극복할 수 있지만, 다중 도구 추론의 방대한 탐색 공간으로 인해 지금까지는 단일 시각 도구를 활용한 추론에 국한되어 왔습니다. 본 연구에서는 VLM이 상호작용적 탐색과 피드백을 통해 여러 도구를 조율하는 방법을 학습하는 2단계 훈련 프레임워크인 이중 상호작용 강화 학습(DIRL)을 소개합니다. 교수 단계에서는 상호작용 강화 학습으로 훈련된 단일 도구 전문가의 데모와 모든 도구를 사용하는 최첨단 모델의 추적을 결합합니다. 탐색 단계에서는 모델이 지속적인 강화 학습을 통해 다중 도구 조율을 더욱 정제합니다. 도구 강화 공간 추론 능력을 갖춘 우리의 모델 SpaceTools는 공간 이해 벤치마크(RoboSpatial-Home, BLINK, BOP-ASK)에서 최첨단 성능을 달성하고, 7자유도 로봇을 도구로 활용한 신뢰할 수 있는 실제 환경 조작 능력을 입증합니다. DIRL은 기본 SFT(RoboSpatial 기준 +12%) 및 강화 학습(RoboSpatial 기준 +16%) 기준선 대비 상당한 성능 향상을 제공합니다. 프로젝트 페이지: https://spacetools.github.io/.
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.