ChatPaper.aiChatPaper

OTC : Appels d'outils optimaux via apprentissage par renforcement

OTC: Optimal Tool Calls via Reinforcement Learning

April 21, 2025
Auteurs: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
cs.AI

Résumé

Le raisonnement intégré d'outils (TIR) enrichit les grands modèles de langage (LLMs) en leur permettant d'invoquer des outils externes, tels que des moteurs de recherche et des interpréteurs de code, pour résoudre des tâches dépassant les capacités du raisonnement basé uniquement sur le langage. Bien que l'apprentissage par renforcement (RL) ait montré des résultats prometteurs pour améliorer le TIR en optimisant l'exactitude des réponses finales, les approches existantes négligent souvent l'efficacité et le coût associés à l'utilisation des outils. Cela peut conduire à des comportements sous-optimaux, incluant des appels excessifs aux outils qui augmentent les charges computationnelles et financières, ou une utilisation insuffisante des outils qui compromet la qualité des réponses. Dans ce travail, nous proposons l'Optimisation de Politique Contrôlée par Appels d'Outils Optimaux (OTC-PO), un cadre simple mais efficace basé sur le RL qui encourage les modèles à produire des réponses précises avec un nombre minimal d'appels d'outils. Notre méthode introduit une récompense intégrée d'outils qui prend en compte conjointement l'exactitude et l'efficacité des outils, favorisant ainsi une productivité élevée des outils. Nous instancions ce cadre à la fois dans l'Optimisation de Politique Proximale (PPO) et dans l'Optimisation de Préférence Relative par Groupe (GRPO), aboutissant à OTC-PPO et OTC-GRPO. Les expériences avec Qwen-2.5 et Qwen-Math sur plusieurs benchmarks de questions-réponses montrent que notre approche réduit les appels d'outils jusqu'à 73,1 % et améliore la productivité des outils jusqu'à 229,4 %, tout en maintenant une exactitude des réponses comparable. À notre connaissance, il s'agit du premier cadre basé sur le RL qui optimise explicitement l'efficacité de l'utilisation des outils dans le TIR.
English
Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools, such as search engines and code interpreters, to solve tasks beyond the capabilities of language-only reasoning. While reinforcement learning (RL) has shown promise in improving TIR by optimizing final answer correctness, existing approaches often overlook the efficiency and cost associated with tool usage. This can lead to suboptimal behavior, including excessive tool calls that increase computational and financial overhead, or insufficient tool use that compromises answer quality. In this work, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers correctness and tool efficiency, promoting high tool productivity. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while maintaining comparable answer accuracy. To the best of our knowledge, this is the first RL-based framework that explicitly optimizes tool-use efficiency in TIR.

Summary

AI-Generated Summary

PDF332April 22, 2025