ChatPaper.aiChatPaper

SpaceTools: Werkzeuggestütztes räumliches Denken durch doppelt interaktives Reinforcement Learning

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

December 3, 2025
papers.authors: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI

papers.abstract

Vision Language Models (VLMs) zeigen ein stark qualitatives visuelles Verständnis, haben jedoch Schwierigkeiten mit metrisch präzisem räumlichem Denken, das für embodied Anwendungen erforderlich ist. Das agentische Paradigma verspricht, dass VLMs eine Vielzahl von Werkzeugen nutzen können, die diese Fähigkeiten erweitern könnten, wie z.B. Tiefenschätzer, Segmentierungsmodelle und Posenschätzer. Es bleibt jedoch eine ungelöste Herausforderung, wie diese Vision verwirklicht werden kann, ohne sich ausschließlich auf handgefertigte Prompting-Strategien zu verlassen oder feste, vordefinierte Werkzeugpipelines durchzusetzen, die die Fähigkeit der VLMs einschränken, optimale Werkzeugnutzungsmuster zu entdecken. Reinforcement Learning könnte diese Lücke schließen, war aber bisher aufgrund des großen Suchraums beim Multi-Tool-Denken auf die Verwendung eines einzigen visuellen Werkzeugs beschränkt. Wir stellen Double Interactive Reinforcement Learning (DIRL) vor, ein Zwei-Phasen-Trainingsframework, bei dem VLMs durch interaktive Exploration und Feedback lernen, mehrere Werkzeuge zu koordinieren. In der Lehrphase kombinieren wir Demonstrationen eines auf ein einzelnes Werkzeug spezialisierten Agenten, der via interaktivem RL trainiert wurde, mit Traces eines Frontier-Modells, das alle Werkzeuge nutzt. In der Explorationsphase verfeinert das Modell die Multi-Tool-Koordination durch fortgesetztes RL weiter. Unser Modell SpaceTools mit werkzeuggestützter räumlicher Denkfähigkeit erzielt state-of-the-art Leistung auf Benchmarks für räumliches Verständnis (RoboSpatial-Home, BLINK, BOP-ASK) und demonstriert zuverlässige Manipulation in der realen Welt unter Verwendung eines 7-DOF-Roboters als Werkzeug. DIRL bietet substantielle Verbesserungen gegenüber den reinen SFT- (+12% auf RoboSpatial) und RL- (+16% auf RoboSpatial) Baseline-Modellen. Projektseite: https://spacetools.github.io/.
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.
PDF181December 5, 2025