AdaReasoner: Dynamische Gereedschapscoördinatie voor Iteratief Visueel Redeneren

Samenvatting

Wanneer mensen problemen tegenkomen die hun directe capaciteiten overstijgen, vertrouwen ze op gereedschappen. Dit biedt een veelbelovend paradigma voor het verbeteren van visueel redeneren in multimodale grote taalmodellen (MLLM's). Effectief redeneren hangt daarom af van het weten welk gereedschap te gebruiken, wanneer het in te schakelen en hoe het over meerdere stappen te combineren, zelfs wanneer men wordt geconfronteerd met nieuwe gereedschappen of nieuwe taken. Wij introduceren AdaReasoner, een familie van multimodale modellen die het gebruik van gereedschappen leren als een algemene redeneervaardigheid in plaats van als gereedschap-specifiek of expliciet gesuperviseerd gedrag. AdaReasoner wordt mogelijk gemaakt door (i) een schaalbare data-curatiepijplijn die modellen blootstelt aan langetermijn, meerstaps interacties met gereedschappen; (ii) Tool-GRPO, een reinforcement learning-algoritme dat de selectie en volgorde van gereedschappen optimaliseert op basis van het succes van de eindtaak; en (iii) een adaptief leermechanisme dat het gereedschapsgebruik dynamisch reguleert. Samen stellen deze componenten modellen in staat om de bruikbaarheid van gereedschappen af te leiden uit de taakcontext en tussentijdse resultaten, wat coördinatie van meerdere gereedschappen en generalisatie naar onbekende gereedschappen mogelijk maakt. Empirisch vertoont AdaReasoner sterk adaptief en generaliserend gedrag voor gereedschappen: het neemt autonoom nuttige gereedschappen over, onderdrukt irrelevante en past de gebruiksfrequentie aan op basis van de taakeisen, ondanks dat het hier nooit expliciet voor is getraind. Deze capaciteiten vertalen zich naar state-of-the-art prestaties op uitdagende benchmarks, waarbij het het 7B-basismodel gemiddeld met +24,9% verbetert en sterke propriëtaire systemen zoals GPT-5 op meerdere taken overtreft, waaronder VSP en Jigsaw.

English

When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.

AdaReasoner: Dynamische Gereedschapscoördinatie voor Iteratief Visueel Redeneren

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Samenvatting

Support