ChatPaper.aiChatPaper

AdaReasoner: Dynamische Werkzeugorchestrierung für iteratives visuelles Schließen

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

January 26, 2026
papers.authors: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI

papers.abstract

Wenn Menschen mit Problemen konfrontiert sind, die ihre unmittelbaren Fähigkeiten übersteigen, greifen sie auf Werkzeuge zurück. Dies bietet ein vielversprechendes Paradigma zur Verbesserung des visuellen Schlussfolgerns in multimodalen großen Sprachmodellen (MLLMs). Effektives Reasoning hängt daher entscheidend davon ab, zu wissen, welche Werkzeuge zu verwenden sind, wann sie einzusetzen sind und wie sie über mehrere Schritte hinweg kombiniert werden können – selbst bei neuen Werkzeugen oder unbekannten Aufgaben. Wir stellen AdaReasoner vor, eine Familie multimodaler Modelle, die Werkzeugnutzung als allgemeine Reasoning-Fähigkeit erlernen und nicht als werkzeugspezifisches oder explizit überwachtes Verhalten. AdaReasoner wird ermöglicht durch (i) eine skalierbare Datenkuratierungspipeline, die Modelle langfristigen, mehrstufigen Werkzeuginteraktionen aussetzt; (ii) Tool-GRPO, einen Reinforcement-Learning-Algorithmus, der die Werkzeugauswahl und -abfolge basierend auf dem Erfolg der Endaufgabe optimiert; und (iii) einen adaptiven Lernmechanismus, der die Werkzeugnutzung dynamisch reguliert. Gemeinsam ermöglichen diese Komponenten den Modellen, den Nutzen von Werkzeugen aus dem Aufgabenzusammenhang und Zwischenergebnissen abzuleiten, was die Koordination mehrerer Werkzeuge und die Generalisierung auf unbekannte Werkzeuge erlaubt. Empirisch zeigt AdaReasoner starke werkzeugadaptive und generalisierende Verhaltensweisen: Es übernimmt autonom nützliche Werkzeuge, unterdrückt irrelevante und passt die Nutzungshäufigkeit basierend auf den Anforderungen der Aufgabe an – obwohl es nie explizit dafür trainiert wurde. Diese Fähigkeiten führen zu state-of-the-art Leistungen in anspruchsvollen Benchmarks, verbessern das 7B-Basismodell im Durchschnitt um +24,9 % und übertreffen leistungsstarke proprietäre Systeme wie GPT-5 bei mehreren Aufgaben, einschließlich VSP und Jigsaw.
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
PDF383January 29, 2026