PORTool: Tool-gebruik LLM-training met beloonde boomstructuur

Samenvatting

Huidige grote taalmodellen (LLM's) voor toolgebruik worden getraind op statische datasets, waardoor ze kunnen interageren met externe tools en multi-stap, tool-geïntegreerd redeneren kunnen uitvoeren, wat tool-aanroep trajecten produceert. Deze modellen imiteren echter hoe een query wordt opgelost in een generieke tool-aanroep routine, waardoor ze mogelijke oplossingen niet verkennen en beperkte prestaties vertonen in een geëvolueerde, dynamische tool-aanroep omgeving. In dit werk stellen we PORTool voor, een reinforcement learning (RL) methode die een toolgebruik-LLM aanmoedigt om diverse trajecten te verkennen die tot het correcte antwoord leiden. Specifiek start deze methode met het genereren van meerdere rollouts voor een gegeven query, waarbij sommige de eerste paar tool-aanroep stappen delen, waardoor een boomachtige structuur ontstaat. Vervolgens kennen we beloningen toe aan elke stap, gebaseerd op het vermogen om een correct antwoord te produceren en succesvolle tool-aanroepen te maken. Een gedeelde stap over verschillende trajecten ontvangt dezelfde beloning, terwijl verschillende stappen onder dezelfde vertakking verschillende beloningen ontvangen. Ten slotte worden deze stapgewijze beloningen gebruikt om vertakkingsrelatieve voordelen te berekenen, gemengd met trajectrelatieve voordelen, om het LLM voor toolgebruik te trainen. De experimenten maken gebruik van 17 tools om gebruikersquery's aan te pakken, waarbij zowel tijdsgevoelige als tijdsonafhankelijke onderwerpen worden behandeld. We voeren ablatiestudies uit om systematisch de noodzaak en de ontwerp robuustheid van stapgewijze beloningen te rechtvaardigen. Verder vergelijken we de voorgestelde PORTool met andere trainingsbenaderingen en tonen we significante verbeteringen aan in de uiteindelijke nauwkeurigheid en het aantal tool-aanroep stappen.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool: Tool-gebruik LLM-training met beloonde boomstructuur

PORTool: Tool-Use LLM Training with Rewarded Tree

Samenvatting

Support