ChatPaper.aiChatPaper

AdaReasoner: Динамическая оркестровка инструментов для итеративного визуального рассуждения

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

January 26, 2026
Авторы: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI

Аннотация

Когда люди сталкиваются с проблемами, превосходящими их непосредственные возможности, они полагаются на инструменты, что предоставляет перспективную парадигму для улучшения визуального мышления в мультимодальных больших языковых моделях (MLLM). Следовательно, эффективное рассуждение зависит от умения определять, какие инструменты использовать, когда их задействовать и как комбинировать их на протяжении нескольких шагов, даже при столкновении с новыми инструментами или задачами. Мы представляем AdaReasoner — семейство мультимодальных моделей, которые осваивают использование инструментов как общий навык рассуждения, а не как поведение, специфичное для конкретного инструмента или явно контролируемое извне. AdaReasoner стал возможным благодаря: (i) масштабируемому конвейеру курирования данных, который знакомит модели с долгосрочными многошаговыми взаимодействиями с инструментами; (ii) алгоритму обучения с подкреплением Tool-GRPO, который оптимизирует выбор инструментов и их последовательность на основе успешности конечной задачи; и (iii) механизму адаптивного обучения, который динамически регулирует использование инструментов. Вместе эти компоненты позволяют моделям выводить полезность инструмента из контекста задачи и промежуточных результатов, обеспечивая координацию нескольких инструментов и обобщение на незнакомые инструменты. Эмпирически AdaReasoner демонстрирует выраженное адаптивное и обобщающее поведение при работе с инструментами: модель автономно осваивает полезные инструменты, подавляет нерелевантные и регулирует частоту их использования в зависимости от требований задачи, несмотря на отсутствие явного обучения этому. Эти возможности приводят к передовой производительности на сложных бенчмарках, улучшая базовую модель на 7 млрд параметров в среднем на +24,9% и превосходя мощные проприетарные системы, такие как GPT-5, в нескольких задачах, включая VSP и Jigsaw.
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
PDF383January 29, 2026