PORTool : Formation de LLM à l'utilisation d'outils avec un arbre de récompenses

papers.abstract

Les grands modèles de langage (LLM) actuels spécialisés dans l'utilisation d'outils sont entraînés sur des jeux de données statiques, ce qui leur permet d'interagir avec des outils externes et d'effectuer un raisonnement multi-étapes intégrant ces outils, produisant ainsi des trajectoires d'appels d'outils. Cependant, ces modèles se contentent d'imiter la résolution générique d'une requête via une routine d'appel d'outils standard, échouant ainsi à explorer des solutions alternatives et démontrant des performances limitées dans un environnement d'appels d'outils dynamique et évolutif. Dans ce travail, nous proposons PORTool, une méthode d'apprentissage par renforcement (RL) qui encourage un LLM utilisateur d'outils à explorer diverses trajectoires menant à la réponse correcte. Concrètement, cette méthode commence par générer plusieurs déroulements (rollouts) pour une requête donnée, certains partageant les premières étapes d'appel d'outils, formant ainsi une structure arborescente. Ensuite, nous attribuons une récompense à chaque étape, basée sur sa capacité à produire une réponse correcte et à effectuer des appels d'outils réussis. Une étape partagée entre différentes trajectoires reçoit la même récompense, tandis que les étapes divergentes sous une même bifurcation reçoivent des récompenses distinctes. Enfin, ces récompenses étape par étape sont utilisées pour calculer des avantages relatifs aux bifurcations, combinés à des avantages relatifs aux trajectoires, afin d'entraîner le LLM à l'utilisation d'outils. Les expériences utilisent 17 outils pour répondre aux requêtes des utilisateurs, couvrant à la fois des sujets sensibles au temps et invariants dans le temps. Nous menons des études d'ablation pour justifier systématiquement la nécessité et la robustesse de conception des récompenses étape par étape. De plus, nous comparons PORTool avec d'autres approches d'entraînement et démontrons des améliorations significatives en précision finale et en nombre d'étapes d'appel d'outils.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool : Formation de LLM à l'utilisation d'outils avec un arbre de récompenses

PORTool: Tool-Use LLM Training with Rewarded Tree

papers.abstract

Support