AdaReasoner: Orchestrazione Dinamica di Strumenti per il Ragionamento Visivo Iterativo

Abstract

Quando gli esseri umani affrontano problemi che superano le loro capacità immediate, ricorrono a strumenti, offrendo un paradigma promettente per migliorare il ragionamento visivo nei modelli linguistici multimodali di grandi dimensioni (MLLM). Un ragionamento efficace, pertanto, dipende dalla capacità di sapere quali strumenti utilizzare, quando invocarli e come combinarli in più fasi, anche quando si confrontano con strumenti nuovi o compiti inediti. Presentiamo AdaReasoner, una famiglia di modelli multimodali che apprende l'uso degli strumenti come abilità di ragionamento generale, anziché come comportamento specifico per un dato strumento o supervisionato esplicitamente. AdaReasoner è reso possibile da: (i) una pipeline scalabile di curatela dei dati che espone i modelli a interazioni con strumenti multi-step e a lungo termine; (ii) Tool-GRPO, un algoritmo di apprendimento per rinforzo che ottimizza la selezione e la sequenziazione degli strumenti in base al successo del compito finale; e (iii) un meccanismo di apprendimento adattivo che regola dinamicamente l'uso degli strumenti. Insieme, questi componenti consentono ai modelli di inferire l'utilità degli strumenti dal contesto del compito e dai risultati intermedi, permettendo il coordinamento di più strumenti e la generalizzazione a strumenti non visti. Empiricamente, AdaReasoner mostra comportamenti marcati di adattamento e generalizzazione nell'uso degli strumenti: adotta autonomamente strumenti benefici, sopprime quelli irrilevanti e regola la frequenza d'uso in base alle esigenze del compito, pur non essendo mai stato addestrato esplicitamente per farlo. Queste capacità si traducono in prestazioni all'avanguardia su benchmark complessi, migliorando il modello base da 7B in media del +24,9% e superando forti sistemi proprietari come GPT-5 in molteplici compiti, inclusi VSP e Jigsaw.

English

When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.

AdaReasoner: Orchestrazione Dinamica di Strumenti per il Ragionamento Visivo Iterativo

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Abstract

Support