ChatPaper.aiChatPaper

SpaceTools: 二重対話型強化学習によるツール拡張空間推論

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

December 3, 2025
著者: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI

要旨

ビジョン言語モデル(VLM)は質的な視覚理解において優れた能力を示すが、具身化応用に必要とされる計量的に精密な空間推論には課題を抱えている。エージェント的パラダイムでは、深度推定器、セグメンテーションモデル、姿勢推定器など、これらの能力を強化する多様なツールをVLMが活用できる可能性が示唆されている。しかし、手作りのプロンプト戦略のみに依存したり、VLMの最適なツール使用パターン発見を制限する固定的なツールパイプラインを強制することなく、このビジョンを実現する方法は未解決の課題である。強化学習はこの課題を克服できる可能性があるが、多ツール推論における探索空間の膨大さから、これまで単一の視覚ツールを用いた推論に限定されていた。我々はDouble Interactive Reinforcement Learning(DIRL)を提案する。これはVLMが対話的探索とフィードバックを通じて複数ツールの協調を学習する二段階トレーニングフレームワークである。指導段階では、対話型強化学習で訓練された単一ツール専門家のデモンストレーションと、全ツールを使用するフロンティアモデルのトレースを組み合わせる。探索段階では、モデルが継続的な強化学習を通じて多ツール協調をさらに洗練させる。ツール拡張型空間推論能力を備えた我々のモデルSpaceToolsは、空間理解ベンチマーク(RoboSpatial-Home、BLINK、BOP-ASK)で最先端の性能を達成し、7自由度ロボットをツールとして用いた信頼性の高い実世界マニピュレーションを実証した。DIRLは、標準のSFT(RoboSpatialで+12%)および強化学習ベースライン(RoboSpatialで+16%)を大幅に上回る改善を示す。プロジェクトページ: https://spacetools.github.io/。
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.
PDF181December 5, 2025