ChatPaper.aiChatPaper

AdaReasoner: 반복적 시각 추론을 위한 동적 도구 오케스트레이션

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

January 26, 2026
저자: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
cs.AI

초록

인간은 즉각적인 능력을 넘어서는 문제에 직면했을 때 도구에 의존하며, 이는 다중모달 대규모 언어 모델(MLLMs)의 시각적 추론 능력 향상을 위한 유망한 패러다임을 제공합니다. 따라서 효과적인 추론은 새로운 도구나 새로운 작업을 마주하더라도 어떤 도구를 사용할지, 언제 호출할지, 여러 단계에 걸어 어떻게 조합할지를 아는 데 달려 있습니다. 우리는 AdaReasoner를 소개합니다. 이는 다중모달 모델 패밀리로, 도구 사용을 도구 특정적이거나 명시적으로 지도된 행동이 아닌 일반적인 추론 기술로 학습합니다. AdaReasoner는 (i) 모델이 장기적이고 다단계의 도구 상호작용에 노출되도록 하는 확장 가능한 데이터 큐레이션 파이프라인, (ii) 최종 작업 성공을 기반으로 도구 선택 및 순서화를 최적화하는 강화 학습 알고리즘인 Tool-GRPO, 그리고 (iii) 도구 사용을 동적으로 조절하는 적응형 학습 메커니즘을 통해 구현됩니다. 이러한 구성 요소들이 함께 작동하여 모델은 작업 맥락과 중간 결과로부터 도구의 유용성을 추론하고, 여러 도구의 조정 및 보이지 않는 도구에 대한 일반화를 가능하게 합니다. 실험적으로 AdaReasoner는 강력한 도구 적응 및 일반화 행동을 보입니다: 명시적으로 그러하도록 훈련받은 적음에도 불구하고 유익한 도구를 자율적으로 채택하고, 관련 없는 도구는 억제하며, 작업 요구에 따라 도구 사용 빈도를 조정합니다. 이러한 능력들은 까다로운 벤치마크에서 최첨단 성능으로 이어져, 7B 기본 모델의 평균 성능을 +24.9% 향상시키고 VSP 및 Jigsaw를 포함한 여러 작업에서 GPT-5와 같은 강력한 독점 시스템을 능가합니다.
English
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
PDF383January 29, 2026