ChatPaper.aiChatPaper

RuimtelijkeGereedschappen: Gereedschaps-ondersteund Ruimtelijk Redeneren via Dubbel Interactieve Versterkingsleren

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

December 3, 2025
Auteurs: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI

Samenvatting

Vision Language Models (VLMs) tonen een sterk kwalitatief visueel begrip, maar hebben moeite met metrisch precieze ruimtelijke redeneervaardigheden die vereist zijn voor embodied toepassingen. Het agent-paradigma belooft dat VLMs een breed scala aan tools kunnen gebruiken om deze capaciteiten aan te vullen, zoals diepteschatters, segmentatiemodellen en poseschatters. Het blijft echter een open uitdaging hoe deze visie te verwezenlijken zonder uitsluitend te vertrouwen op handmatige promptstrategieën of het opleggen van vaste, vooraf gedefinieerde toolpijplijnen die het vermogen van VLMs om optimale toolgebruikspatronen te ontdekken beperken. Reinforcement Learning zou deze kloof kunnen overbruggen, maar was tot nu toe beperkt tot redeneren met een enkele visuele tool vanwege de grote zoekruimte bij multi-tool redeneren. Wij introduceren Double Interactive Reinforcement Learning (DIRL), een tweefasig trainingsraamwerk waarin VLMs leren om meerdere tools te coördineren door middel van interactieve verkenning en feedback. In de onderwijs fase combineren we demonstraties van een enkele tool-specialist, getraind via interactieve RL, met sporen van een frontier model dat alle tools gebruikt. In de verkenning fase verfijnt het model de multi-tool coördinatie verder door middel van voortgezette RL. Ons model, SpaceTools, met tool-aangevulde ruimtelijke redeneervaardigheid, behaalt state-of-the-art prestaties op benchmarks voor ruimtelijk begrip (RoboSpatial-Home, BLINK, BOP-ASK) en demonstreert betrouwbare manipulatie in de echte wereld met behulp van een 7-DOF robot als tool. DIRL biedt substantiële verbeteringen ten opzichte van de vanilla SFT (+12% op RoboSpatial) en RL (+16% op RoboSpatial) baseline. Projectpagina: https://spacetools.github.io/.
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.
PDF181December 5, 2025