AdaReasoner: Orquestación Dinámica de Herramientas para el Razonamiento Visual Iterativo
AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
January 26, 2026
Autores: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI
Resumen
Cuando los seres humanos se enfrentan a problemas que superan sus capacidades inmediatas, recurren a herramientas, lo que ofrece un paradigma prometedor para mejorar el razonamiento visual en los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Por lo tanto, un razonamiento efectivo depende de saber qué herramientas utilizar, cuándo invocarlas y cómo componerlas a lo largo de múltiples pasos, incluso cuando se enfrentan a herramientas o tareas nuevas. Presentamos AdaReasoner, una familia de modelos multimodales que aprenden el uso de herramientas como una habilidad de razonamiento general, en lugar de como un comportamiento específico de una herramienta o supervisado explícitamente. AdaReasoner se habilita mediante (i) un pipeline escalable de curación de datos que expone a los modelos a interacciones con herramientas de múltiples pasos y largo horizonte; (ii) Tool-GRPO, un algoritmo de aprendizaje por refuerzo que optimiza la selección y secuenciación de herramientas basándose en el éxito de la tarea final; y (iii) un mecanismo de aprendizaje adaptativo que regula dinámicamente el uso de herramientas. En conjunto, estos componentes permiten a los modelos inferir la utilidad de las herramientas a partir del contexto de la tarea y los resultados intermedios, posibilitando la coordinación de múltiples herramientas y la generalización a herramientas no vistas. Empíricamente, AdaReasoner exhibe comportamientos sólidos de adaptación y generalización de herramientas: adopta autónomamente herramientas beneficiosas, suprime las irrelevantes y ajusta la frecuencia de uso de herramientas en función de las demandas de la tarea, a pesar de no haber sido entrenado explícitamente para ello. Estas capacidades se traducen en un rendimiento de vanguardia en benchmarks desafiantes, mejorando el modelo base de 7B en un +24.9 % en promedio y superando a sistemas propietarios potentes como GPT-5 en múltiples tareas, incluyendo VSP y Jigsaw.
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.