ChatPaper.aiChatPaper

AdaReasoner : Orchestration dynamique d'outils pour le raisonnement visuel itératif

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

January 26, 2026
papers.authors: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI

papers.abstract

Face à des problèmes dépassant leurs capacités immédiates, les humains s’appuient sur des outils, offrant ainsi un paradigme prometteur pour améliorer le raisonnement visuel dans les modèles de langage multimodaux de grande taille (MLLM). Un raisonnement efficace dépend donc de la capacité à savoir quels outils utiliser, quand les invoquer et comment les composer sur plusieurs étapes, même face à de nouveaux outils ou à de nouvelles tâches. Nous présentons AdaReasoner, une famille de modèles multimodaux qui apprennent l’utilisation d’outils comme une compétence de raisonnement générale, plutôt que comme un comportement spécifique à un outil ou explicitement supervisé. AdaReasoner est rendu possible par (i) un pipeline d’enrichissement de données scalable exposant les modèles à des interactions longues et multi-étapes avec des outils ; (ii) Tool-GRPO, un algorithme d’apprentissage par renforcement qui optimise la sélection et l’enchaînement des outils en fonction de la réussite de la tâche finale ; et (iii) un mécanisme d’apprentissage adaptatif qui régule dynamiquement l’utilisation des outils. Ensemble, ces composants permettent aux modèles de déduire l’utilité des outils à partir du contexte de la tâche et des résultats intermédiaires, favorisant la coordination de multiples outils et la généralisation à des outils non vus auparavant. Empiriquement, AdaReasoner présente des comportements marqués d’adaptation et de généralisation : il adopte de manière autonome les outils bénéfiques, supprime ceux qui sont non pertinents et ajuste la fréquence d’utilisation des outils en fonction des exigences de la tâche, sans avoir été explicitement entraîné pour cela. Ces capacités se traduisent par des performances de pointe sur des benchmarks exigeants, améliorant le modèle de base 7B de +24,9 % en moyenne et surpassant des systèmes propriétaires robustes tels que GPT-5 sur plusieurs tâches, notamment VSP et Jigsaw.
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
PDF383January 29, 2026