PORTool: Toolnutzungstraining für LLMs mit belohnten Bäumen

papers.abstract

Aktuelle werkzeugnutzende Large Language Models (LLMs) werden auf statischen Datensätzen trainiert, was es ihnen ermöglicht, mit externen Werkzeugen zu interagieren und mehrstufige, werkzeugintegrierte Schlussfolgerungen durchzuführen, wodurch Werkzeugaufruf-Trajektorien erzeugt werden. Diese Modelle imitieren jedoch, wie eine Abfrage in einer generischen Werkzeugaufruf-Routine gelöst wird, und scheitern dadurch daran, mögliche Lösungen zu erkunden, was zu einer begrenzten Leistung in einer sich entwickelnden, dynamischen Werkzeugaufruf-Umgebung führt. In dieser Arbeit schlagen wir PORTool vor, eine Reinforcement-Learning (RL)-Methode, die ein werkzeugnutzendes LLM dazu anregt, verschiedene Trajektorien zu erkunden, die zur richtigen Antwort führen. Konkret beginnt diese Methode mit der Generierung mehrerer Rollouts für eine gegebene Abfrage, wobei einige davon die ersten paar Werkzeugaufruf-Schritte teilen und so eine baumartige Struktur bilden. Anschließend weisen wir jedem Schritt eine Belohnung zu, basierend auf seiner Fähigkeit, eine korrekte Antwort zu produzieren und erfolgreiche Werkzeugaufrufe durchzuführen. Ein gemeinsamer Schritt über verschiedene Trajektorien hinweg erhält dieselbe Belohnung, während unterschiedliche Schritte unter derselben Verzweigung unterschiedliche Belohnungen erhalten. Schließlich werden diese schrittweisen Belohnungen verwendet, um verzweigungsrelative Vorteile zu berechnen, die mit trajektorienrelativen Vorteilen kombiniert werden, um das LLM für die Werkzeugnutzung zu trainieren. Die Experimente nutzen 17 Werkzeuge zur Beantwortung von Benutzeranfragen, die sowohl zeitkritische als auch zeitinvariante Themen abdecken. Wir führen Ablationsstudien durch, um die Notwendigkeit und die Designrobustheit der schrittweisen Belohnungen systematisch zu begründen. Darüber hinaus vergleichen wir das vorgeschlagene PORTool mit anderen Trainingsansätzen und zeigen signifikante Verbesserungen bei der Endgenauigkeit und der Anzahl der Werkzeugaufruf-Schritte.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool: Toolnutzungstraining für LLMs mit belohnten Bäumen

PORTool: Tool-Use LLM Training with Rewarded Tree

papers.abstract

Support