AdaReasoner: Orquestração Dinâmica de Ferramentas para Raciocínio Visual Iterativo

Resumo

Quando os seres humanos enfrentam problemas que ultrapassam suas capacidades imediatas, eles recorrem a ferramentas, o que oferece um paradigma promissor para melhorar o raciocínio visual em modelos de linguagem multimodal de grande escala (MLLMs). Portanto, um raciocínio eficaz depende de saber quais ferramentas usar, quando invocá-las e como combiná-las ao longo de múltiplas etapas, mesmo quando confrontado com novas ferramentas ou novas tarefas. Apresentamos o AdaReasoner, uma família de modelos multimodais que aprendem o uso de ferramentas como uma habilidade de raciocínio geral, e não como um comportamento específico de uma ferramenta ou explicitamente supervisionado. O AdaReasoner é possibilitado por (i) um *pipeline* escalável de curadoria de dados que expõe os modelos a interações de ferramentas de longo horizonte e multi-etapas; (ii) o Tool-GRPO, um algoritmo de aprendizagem por reforço que otimiza a seleção e sequenciamento de ferramentas com base no sucesso da tarefa final; e (iii) um mecanismo de aprendizagem adaptativa que regula dinamicamente o uso de ferramentas. Juntos, esses componentes permitem que os modelos inferiram a utilidade da ferramenta a partir do contexto da tarefa e dos resultados intermediários, permitindo a coordenação de múltiplas ferramentas e a generalização para ferramentas não vistas. Empiricamente, o AdaReasoner exibe comportamentos fortes de adaptação e generalização de ferramentas: ele adota autonomamente ferramentas benéficas, suprime as irrelevantes e ajusta a frequência de uso da ferramenta com base nas demandas da tarefa, apesar de nunca ter sido explicitamente treinado para isso. Essas capacidades se traduzem em um desempenho de ponta em *benchmarks* desafiadores, melhorando o modelo base de 7B em +24,9% em média e superando sistemas proprietários robustos como o GPT-4V em múltiplas tarefas, incluindo VSP e Jigsaw.

English

When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.