OTC: Optimale Werkzeugaufrufe durch Reinforcement Learning
OTC: Optimal Tool Calls via Reinforcement Learning
April 21, 2025
Autoren: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
cs.AI
Zusammenfassung
Tool-integrated reasoning (TIR) erweitert große Sprachmodelle (LLMs) um die Fähigkeit, externe Werkzeuge wie Suchmaschinen und Code-Interpreter aufzurufen, um Aufgaben zu lösen, die über die Möglichkeiten rein sprachbasierter Schlussfolgerungen hinausgehen. Während Reinforcement Learning (RL) vielversprechende Ansätze zur Verbesserung von TIR durch die Optimierung der Korrektheit der endgültigen Antworten gezeigt hat, übersehen bestehende Methoden oft die Effizienz und die Kosten im Zusammenhang mit der Werkzeugnutzung. Dies kann zu suboptimalem Verhalten führen, einschließlich übermäßiger Werkzeugaufrufe, die den Rechen- und finanziellen Aufwand erhöhen, oder unzureichender Werkzeugnutzung, die die Antwortqualität beeinträchtigt. In dieser Arbeit schlagen wir Optimal Tool Call-controlled Policy Optimization (OTC-PO) vor, ein einfaches, aber effektives RL-basiertes Framework, das Modelle dazu anregt, präzise Antworten mit minimalen Werkzeugaufrufen zu erzeugen. Unsere Methode führt eine werkzeugintegrierte Belohnung ein, die sowohl die Korrektheit als auch die Werkzeugeffizienz berücksichtigt und somit eine hohe Werkzeugproduktivität fördert. Wir implementieren dieses Framework sowohl in Proximal Policy Optimization (PPO) als auch in Group Relative Preference Optimization (GRPO), was zu OTC-PPO und OTC-GRPO führt. Experimente mit Qwen-2.5 und Qwen-Math über mehrere QA-Benchmarks zeigen, dass unser Ansatz die Werkzeugaufrufe um bis zu 73,1 % reduziert und die Werkzeugproduktivität um bis zu 229,4 % steigert, während die Antwortgenauigkeit vergleichbar bleibt. Nach unserem Wissen ist dies das erste RL-basierte Framework, das explizit die Effizienz der Werkzeugnutzung in TIR optimiert.
English
Tool-integrated reasoning (TIR) augments large language models (LLMs) with
the ability to invoke external tools, such as search engines and code
interpreters, to solve tasks beyond the capabilities of language-only
reasoning. While reinforcement learning (RL) has shown promise in improving TIR
by optimizing final answer correctness, existing approaches often overlook the
efficiency and cost associated with tool usage. This can lead to suboptimal
behavior, including excessive tool calls that increase computational and
financial overhead, or insufficient tool use that compromises answer quality.
In this work, we propose Optimal Tool Call-controlled Policy Optimization
(OTC-PO), a simple yet effective RL-based framework that encourages models to
produce accurate answers with minimal tool calls. Our method introduces a
tool-integrated reward that jointly considers correctness and tool efficiency,
promoting high tool productivity. We instantiate this framework within both
Proximal Policy Optimization (PPO) and Group Relative Preference Optimization
(GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and
Qwen-Math across multiple QA benchmarks show that our approach reduces tool
calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while
maintaining comparable answer accuracy. To the best of our knowledge, this is
the first RL-based framework that explicitly optimizes tool-use efficiency in
TIR.Summary
AI-Generated Summary