OTC: Optimale Werkzeugaufrufe durch Reinforcement Learning

papers.abstract

Tool-integrated reasoning (TIR) erweitert große Sprachmodelle (LLMs) um die Fähigkeit, externe Werkzeuge wie Suchmaschinen und Code-Interpreter aufzurufen, um Aufgaben zu lösen, die über die Möglichkeiten rein sprachbasierter Schlussfolgerungen hinausgehen. Während Reinforcement Learning (RL) vielversprechende Ansätze zur Verbesserung von TIR durch die Optimierung der Korrektheit der endgültigen Antworten gezeigt hat, übersehen bestehende Methoden oft die Effizienz und die Kosten im Zusammenhang mit der Werkzeugnutzung. Dies kann zu suboptimalem Verhalten führen, einschließlich übermäßiger Werkzeugaufrufe, die den Rechen- und finanziellen Aufwand erhöhen, oder unzureichender Werkzeugnutzung, die die Antwortqualität beeinträchtigt. In dieser Arbeit schlagen wir Optimal Tool Call-controlled Policy Optimization (OTC-PO) vor, ein einfaches, aber effektives RL-basiertes Framework, das Modelle dazu anregt, präzise Antworten mit minimalen Werkzeugaufrufen zu erzeugen. Unsere Methode führt eine werkzeugintegrierte Belohnung ein, die sowohl die Korrektheit als auch die Werkzeugeffizienz berücksichtigt und somit eine hohe Werkzeugproduktivität fördert. Wir implementieren dieses Framework sowohl in Proximal Policy Optimization (PPO) als auch in Group Relative Preference Optimization (GRPO), was zu OTC-PPO und OTC-GRPO führt. Experimente mit Qwen-2.5 und Qwen-Math über mehrere QA-Benchmarks zeigen, dass unser Ansatz die Werkzeugaufrufe um bis zu 73,1 % reduziert und die Werkzeugproduktivität um bis zu 229,4 % steigert, während die Antwortgenauigkeit vergleichbar bleibt. Nach unserem Wissen ist dies das erste RL-basierte Framework, das explizit die Effizienz der Werkzeugnutzung in TIR optimiert.

English

Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools, such as search engines and code interpreters, to solve tasks beyond the capabilities of language-only reasoning. While reinforcement learning (RL) has shown promise in improving TIR by optimizing final answer correctness, existing approaches often overlook the efficiency and cost associated with tool usage. This can lead to suboptimal behavior, including excessive tool calls that increase computational and financial overhead, or insufficient tool use that compromises answer quality. In this work, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers correctness and tool efficiency, promoting high tool productivity. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while maintaining comparable answer accuracy. To the best of our knowledge, this is the first RL-based framework that explicitly optimizes tool-use efficiency in TIR.

OTC: Optimale Werkzeugaufrufe durch Reinforcement Learning

OTC: Optimal Tool Calls via Reinforcement Learning

papers.abstract

Support