SpaceTools: Razonamiento Espacial Aumentado con Herramientas mediante Doble RL Interactivo
SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
December 3, 2025
Autores: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay
cs.AI
Resumen
Los Modelos de Lenguaje Visual (VLM) demuestran una sólida comprensión visual cualitativa, pero presentan dificultades en el razonamiento espacial métricamente preciso requerido para aplicaciones de embodiment. El paradigma de agencia promete que los VLM pueden utilizar una amplia variedad de herramientas que podrían aumentar estas capacidades, como estimadores de profundidad, modelos de segmentación y estimadores de postura. Sin embargo, sigue siendo un reto abierto cómo materializar esta visión sin depender únicamente de estrategias de prompting manuales o de imponer pipelines de herramientas fijos y predefinidos que limitan la capacidad de los VLM para descubrir patrones óptimos de uso de herramientas. El Aprendizaje por Refuerzo podría superar esta brecha, pero hasta ahora se ha limitado al razonamiento con una única herramienta visual debido al gran espacio de búsqueda en el razonamiento multi-herramienta. Presentamos Double Interactive Reinforcement Learning (DIRL), un marco de entrenamiento en dos fases donde los VLM aprenden a coordinar múltiples herramientas mediante exploración y retroalimentación interactivas. En la fase de enseñanza, combinamos demostraciones de un especialista en una sola herramienta entrenado mediante RL interactivo con trazas de un modelo de frontera que utiliza todas las herramientas. En la fase de exploración, el modelo refina aún más la coordinación multi-herramienta mediante RL continuado. Nuestro modelo, SpaceTools, con capacidad de razonamiento espacial aumentado por herramientas, logra un rendimiento de vanguardia en benchmarks de comprensión espacial (RoboSpatial-Home, BLINK, BOP-ASK) y demuestra una manipulación confiable en el mundo real utilizando un robot de 7-GDL como herramienta. DIRL proporciona mejoras sustanciales respecto a los baselines de SFT estándar (+12% en RoboSpatial) y de RL (+16% en RoboSpatial). Página del proyecto: https://spacetools.github.io/.
English
Vision Language Models (VLMs) demonstrate strong qualitative visual understanding, but struggle with metrically precise spatial reasoning required for embodied applications. The agentic paradigm promises that VLMs can use a wide variety of tools that could augment these capabilities, such as depth estimators, segmentation models, and pose estimators. Yet it remains an open challenge how to realize this vision without solely relying on handcrafted prompting strategies or enforcing fixed, predefined tool pipelines that limit VLMs' ability to discover optimal tool-use patterns. Reinforcement Learning could overcome this gap, but has so far been limited to reasoning with a single visual tool due to the large search space in multi-tool reasoning. We introduce Double Interactive Reinforcement Learning (DIRL), a two-phase training framework where VLMs learn to coordinate multiple tools through interactive exploration and feedback. In the teaching phase, we combine demonstrations from a single tool specialist trained via interactive RL with traces from a frontier model using all tools. In the exploration phase, the model further refines multi-tool coordination through continued RL. Our model, SpaceTools, with tool-augmented spatial reasoning ability, achieves state-of-the-art performance on spatial understanding benchmarks (RoboSpatial-Home, BLINK, BOP-ASK) and demonstrates reliable real-world manipulation using a 7-DOF robot as a tool. DIRL provides substantial improvements over the vanilla SFT (+12% on RoboSpatial) and RL (+16% on RoboSpatial) baselines. Project page: https://spacetools.github.io/.