OTC: Optimale Tool Calls via Reinforcement Learning

Samenvatting

Tool-integrated reasoning (TIR) versterkt grote taalmodellen (LLMs) met de mogelijkheid om externe tools aan te roepen, zoals zoekmachines en code-interpreters, om taken op te lossen die verder gaan dan de mogelijkheden van taalgerichte redenering. Hoewel reinforcement learning (RL) veelbelovend is gebleken in het verbeteren van TIR door de juistheid van het eindantwoord te optimaliseren, negeren bestaande benaderingen vaak de efficiëntie en kosten die gepaard gaan met het gebruik van tools. Dit kan leiden tot suboptimaal gedrag, waaronder overmatige tool-aanroepen die de rekenkundige en financiële overhead vergroten, of onvoldoende toolgebruik dat de kwaliteit van het antwoord in gevaar brengt. In dit werk stellen we Optimal Tool Call-controlled Policy Optimization (OTC-PO) voor, een eenvoudig maar effectief RL-gebaseerd raamwerk dat modellen aanmoedigt om nauwkeurige antwoorden te produceren met minimale tool-aanroepen. Onze methode introduceert een tool-geïntegreerde beloning die zowel de juistheid als de tool-efficiëntie in overweging neemt, waardoor een hoge toolproductiviteit wordt bevorderd. We concretiseren dit raamwerk binnen zowel Proximal Policy Optimization (PPO) als Group Relative Preference Optimization (GRPO), wat resulteert in OTC-PPO en OTC-GRPO. Experimenten met Qwen-2.5 en Qwen-Math over meerdere QA-benchmarks laten zien dat onze aanpak tool-aanroepen met tot wel 73,1\% vermindert en de toolproductiviteit met tot wel 229,4\% verbetert, terwijl een vergelijkbare nauwkeurigheid van het antwoord behouden blijft. Voor zover wij weten, is dit het eerste RL-gebaseerde raamwerk dat expliciet de efficiëntie van toolgebruik in TIR optimaliseert.

English

Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools, such as search engines and code interpreters, to solve tasks beyond the capabilities of language-only reasoning. While reinforcement learning (RL) has shown promise in improving TIR by optimizing final answer correctness, existing approaches often overlook the efficiency and cost associated with tool usage. This can lead to suboptimal behavior, including excessive tool calls that increase computational and financial overhead, or insufficient tool use that compromises answer quality. In this work, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers correctness and tool efficiency, promoting high tool productivity. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while maintaining comparable answer accuracy. To the best of our knowledge, this is the first RL-based framework that explicitly optimizes tool-use efficiency in TIR.

OTC: Optimale Tool Calls via Reinforcement Learning

OTC: Optimal Tool Calls via Reinforcement Learning

Samenvatting

Support