OTC: Chamadas Ótimas de Ferramentas via Aprendizado por Reforço
OTC: Optimal Tool Calls via Reinforcement Learning
April 21, 2025
Autores: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
cs.AI
Resumo
O raciocínio integrado a ferramentas (TIR) amplia os modelos de linguagem de grande escala (LLMs) com a capacidade de invocar ferramentas externas, como motores de busca e interpretadores de código, para resolver tarefas que vão além das capacidades do raciocínio baseado apenas em linguagem. Embora o aprendizado por reforço (RL) tenha mostrado potencial para melhorar o TIR ao otimizar a precisão das respostas finais, as abordagens existentes frequentemente negligenciam a eficiência e o custo associados ao uso de ferramentas. Isso pode levar a comportamentos subótimos, incluindo chamadas excessivas a ferramentas que aumentam o custo computacional e financeiro, ou uso insuficiente de ferramentas que comprometem a qualidade das respostas. Neste trabalho, propomos o Optimal Tool Call-controlled Policy Optimization (OTC-PO), uma estrutura simples, porém eficaz, baseada em RL que incentiva os modelos a produzir respostas precisas com o mínimo de chamadas a ferramentas. Nosso método introduz uma recompensa integrada a ferramentas que considera conjuntamente a precisão e a eficiência no uso de ferramentas, promovendo alta produtividade. Instanciamos essa estrutura tanto no Proximal Policy Optimization (PPO) quanto no Group Relative Preference Optimization (GRPO), resultando no OTC-PPO e no OTC-GRPO. Experimentos com Qwen-2.5 e Qwen-Math em vários benchmarks de QA mostram que nossa abordagem reduz as chamadas a ferramentas em até 73,1% e melhora a produtividade no uso de ferramentas em até 229,4%, mantendo uma precisão de respostas comparável. Até onde sabemos, esta é a primeira estrutura baseada em RL que otimiza explicitamente a eficiência no uso de ferramentas no TIR.
English
Tool-integrated reasoning (TIR) augments large language models (LLMs) with
the ability to invoke external tools, such as search engines and code
interpreters, to solve tasks beyond the capabilities of language-only
reasoning. While reinforcement learning (RL) has shown promise in improving TIR
by optimizing final answer correctness, existing approaches often overlook the
efficiency and cost associated with tool usage. This can lead to suboptimal
behavior, including excessive tool calls that increase computational and
financial overhead, or insufficient tool use that compromises answer quality.
In this work, we propose Optimal Tool Call-controlled Policy Optimization
(OTC-PO), a simple yet effective RL-based framework that encourages models to
produce accurate answers with minimal tool calls. Our method introduces a
tool-integrated reward that jointly considers correctness and tool efficiency,
promoting high tool productivity. We instantiate this framework within both
Proximal Policy Optimization (PPO) and Group Relative Preference Optimization
(GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and
Qwen-Math across multiple QA benchmarks show that our approach reduces tool
calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while
maintaining comparable answer accuracy. To the best of our knowledge, this is
the first RL-based framework that explicitly optimizes tool-use efficiency in
TIR.