ChatPaper.aiChatPaper

SpaceTools : Raisonnement spatial assisté par outils via double apprentissage par renforcement interactif

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

December 3, 2025
papers.authors: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI

papers.abstract

Les modèles de vision et langage (VLM) démontrent une solide compréhension visuelle qualitative, mais peinent avec le raisonnement spatial métriquement précis requis pour les applications embarquées. Le paradigme agentique promet que les VLM peuvent utiliser une grande variété d'outils susceptibles d'augmenter ces capacités, tels que les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose. Pourtant, la manière de concrétiser cette vision sans se reposer uniquement sur des stratégies d'invitation artisanales ou sur l'imposition de pipelines d'outils prédéfinis et fixes, qui limitent la capacité des VLM à découvrir des schémas optimaux d'utilisation des outils, reste un défi ouvert. L'apprentissage par renforcement pourrait combler cette lacune, mais a jusqu'à présent été limité au raisonnement avec un seul outil visuel en raison du large espace de recherche dans le raisonnement multi-outils. Nous présentons le Double Apprentissage par Renforcement Interactif (DIRL), un framework d'entraînement en deux phases où les VLM apprennent à coordonner plusieurs outils par l'exploration interactive et la rétroaction. Dans la phase d'enseignement, nous combinons des démonstrations d'un spécialiste d'outil unique entraîné via l'apprentissage par renforcement interactif avec des traces d'un modèle de frontière utilisant tous les outils. Dans la phase d'exploration, le modèle affine davantage la coordination multi-outils grâce à un apprentissage par renforcement continu. Notre modèle, SpaceTools, doté d'une capacité de raisonnement spatial augmentée par les outils, obtient des performances de pointe sur des benchmarks de compréhension spatiale (RoboSpatial-Home, BLINK, BOP-ASK) et démontre une manipulation fiable dans le monde réel en utilisant un robot à 7 degrés de liberté comme outil. DIRL apporte des améliorations substantielles par rapport aux lignes de base de l'apprentissage supervisé simple (+12% sur RoboSpatial) et de l'apprentissage par renforcement (+16% sur RoboSpatial). Page du projet : https://spacetools.github.io/.
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.
PDF181December 5, 2025