OTC: Optimale Tool Calls via Reinforcement Learning
OTC: Optimal Tool Calls via Reinforcement Learning
April 21, 2025
Auteurs: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
cs.AI
Samenvatting
Tool-integrated reasoning (TIR) versterkt grote taalmodellen (LLMs) met de mogelijkheid om externe tools aan te roepen, zoals zoekmachines en code-interpreters, om taken op te lossen die verder gaan dan de mogelijkheden van taalgerichte redenering. Hoewel reinforcement learning (RL) veelbelovend is gebleken in het verbeteren van TIR door de juistheid van het eindantwoord te optimaliseren, negeren bestaande benaderingen vaak de efficiëntie en kosten die gepaard gaan met het gebruik van tools. Dit kan leiden tot suboptimaal gedrag, waaronder overmatige tool-aanroepen die de rekenkundige en financiële overhead vergroten, of onvoldoende toolgebruik dat de kwaliteit van het antwoord in gevaar brengt. In dit werk stellen we Optimal Tool Call-controlled Policy Optimization (OTC-PO) voor, een eenvoudig maar effectief RL-gebaseerd raamwerk dat modellen aanmoedigt om nauwkeurige antwoorden te produceren met minimale tool-aanroepen. Onze methode introduceert een tool-geïntegreerde beloning die zowel de juistheid als de tool-efficiëntie in overweging neemt, waardoor een hoge toolproductiviteit wordt bevorderd. We concretiseren dit raamwerk binnen zowel Proximal Policy Optimization (PPO) als Group Relative Preference Optimization (GRPO), wat resulteert in OTC-PPO en OTC-GRPO. Experimenten met Qwen-2.5 en Qwen-Math over meerdere QA-benchmarks laten zien dat onze aanpak tool-aanroepen met tot wel 73,1\% vermindert en de toolproductiviteit met tot wel 229,4\% verbetert, terwijl een vergelijkbare nauwkeurigheid van het antwoord behouden blijft. Voor zover wij weten, is dit het eerste RL-gebaseerde raamwerk dat expliciet de efficiëntie van toolgebruik in TIR optimaliseert.
English
Tool-integrated reasoning (TIR) augments large language models (LLMs) with
the ability to invoke external tools, such as search engines and code
interpreters, to solve tasks beyond the capabilities of language-only
reasoning. While reinforcement learning (RL) has shown promise in improving TIR
by optimizing final answer correctness, existing approaches often overlook the
efficiency and cost associated with tool usage. This can lead to suboptimal
behavior, including excessive tool calls that increase computational and
financial overhead, or insufficient tool use that compromises answer quality.
In this work, we propose Optimal Tool Call-controlled Policy Optimization
(OTC-PO), a simple yet effective RL-based framework that encourages models to
produce accurate answers with minimal tool calls. Our method introduces a
tool-integrated reward that jointly considers correctness and tool efficiency,
promoting high tool productivity. We instantiate this framework within both
Proximal Policy Optimization (PPO) and Group Relative Preference Optimization
(GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and
Qwen-Math across multiple QA benchmarks show that our approach reduces tool
calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while
maintaining comparable answer accuracy. To the best of our knowledge, this is
the first RL-based framework that explicitly optimizes tool-use efficiency in
TIR.Summary
AI-Generated Summary