ChatPaper.aiChatPaper

PORTool: Entrenamiento de LLM para Uso de Herramientas mediante Árboles de Recompensa

PORTool: Tool-Use LLM Training with Rewarded Tree

October 29, 2025
Autores: Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rodin Luo, Jing Gao
cs.AI

Resumen

Los modelos de lenguaje grande (LLM) actuales que utilizan herramientas se entrenan con conjuntos de datos estáticos, lo que les permite interactuar con herramientas externas y realizar razonamientos multi-etapa integrando herramientas, generando así trayectorias de llamadas a herramientas. Sin embargo, estos modelos imitan cómo se resuelve una consulta en una rutina genérica de llamadas a herramientas, lo que les impide explorar soluciones alternativas y demuestra un rendimiento limitado en entornos dinámicos y evolutivos de llamadas a herramientas. En este trabajo, proponemos PORTool, un método de aprendizaje por refuerzo (RL) que incentiva a un LLM que utiliza herramientas a explorar diversas trayectorias que conduzcan a la respuesta correcta. Específicamente, este método comienza generando múltiples rollouts para una consulta dada, algunos de los cuales comparten los primeros pasos de llamadas a herramientas, formando así una estructura arbórea. A continuación, asignamos recompensas a cada paso, basándonos en su capacidad para producir una respuesta correcta y realizar llamadas a herramientas exitosas. Un paso compartido entre diferentes trayectorias recibe la misma recompensa, mientras que pasos diferentes bajo la misma bifurcación reciben recompensas distintas. Finalmente, estas recompensas a nivel de paso se utilizan para calcular ventajas relativas a la bifurcación, combinadas con ventajas relativas a la trayectoria, para entrenar al LLM en el uso de herramientas. Los experimentos utilizan 17 herramientas para abordar consultas de usuarios, cubriendo tanto temas sensibles al tiempo como invariantes en el tiempo. Realizamos estudios de ablación para justificar sistemáticamente la necesidad y la robustez del diseño de las recompensas paso a paso. Además, comparamos el PORTool propuesto con otros enfoques de entrenamiento y demostramos mejoras significativas en la precisión final y en el número de pasos de llamadas a herramientas.
English
Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.
PDF41December 2, 2025