ChatPaper.aiChatPaper

OTC: Llamadas Óptimas a Herramientas mediante Aprendizaje por Refuerzo

OTC: Optimal Tool Calls via Reinforcement Learning

April 21, 2025
Autores: Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji
cs.AI

Resumen

El razonamiento integrado con herramientas (TIR, por sus siglas en inglés) amplía las capacidades de los modelos de lenguaje de gran escala (LLMs) al dotarlos de la habilidad de invocar herramientas externas, como motores de búsqueda e intérpretes de código, para resolver tareas que van más allá de las capacidades del razonamiento basado únicamente en lenguaje. Si bien el aprendizaje por refuerzo (RL) ha demostrado ser prometedor para mejorar el TIR al optimizar la corrección de las respuestas finales, los enfoques existentes a menudo pasan por alto la eficiencia y el costo asociados con el uso de herramientas. Esto puede llevar a comportamientos subóptimos, como llamadas excesivas a herramientas que aumentan la sobrecarga computacional y financiera, o un uso insuficiente de herramientas que compromete la calidad de las respuestas. En este trabajo, proponemos la Optimización de Políticas Controladas por Llamadas Óptimas a Herramientas (OTC-PO), un marco basado en RL simple pero efectivo que fomenta que los modelos produzcan respuestas precisas con un mínimo de llamadas a herramientas. Nuestro método introduce una recompensa integrada con herramientas que considera conjuntamente la corrección y la eficiencia en el uso de herramientas, promoviendo una alta productividad de las mismas. Implementamos este marco tanto en la Optimización de Políticas Proximales (PPO) como en la Optimización de Preferencias Relativas de Grupo (GRPO), dando lugar a OTC-PPO y OTC-GRPO. Los experimentos realizados con Qwen-2.5 y Qwen-Math en múltiples benchmarks de preguntas y respuestas muestran que nuestro enfoque reduce las llamadas a herramientas hasta en un 73.1\% y mejora la productividad de las herramientas hasta en un 229.4\%, manteniendo una precisión comparable en las respuestas. Hasta donde sabemos, este es el primer marco basado en RL que optimiza explícitamente la eficiencia en el uso de herramientas en el TIR.
English
Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools, such as search engines and code interpreters, to solve tasks beyond the capabilities of language-only reasoning. While reinforcement learning (RL) has shown promise in improving TIR by optimizing final answer correctness, existing approaches often overlook the efficiency and cost associated with tool usage. This can lead to suboptimal behavior, including excessive tool calls that increase computational and financial overhead, or insufficient tool use that compromises answer quality. In this work, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers correctness and tool efficiency, promoting high tool productivity. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while maintaining comparable answer accuracy. To the best of our knowledge, this is the first RL-based framework that explicitly optimizes tool-use efficiency in TIR.

Summary

AI-Generated Summary

PDF332April 22, 2025