PORTool: Addestramento di LLM per l'Uso di Strumenti con Albero Premiato

Abstract

Gli attuali modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti vengono addestrati su dataset statici, consentendo loro di interagire con strumenti esterni e compiere ragionamenti multi-step integrati con strumenti, producendo così traiettorie di chiamate agli strumenti. Tuttavia, questi modelli imitano la risoluzione di una query secondo una routine generica di chiamate agli strumenti, fallendo quindi nell'esplorare soluzioni alternative e dimostrando prestazioni limitate in un ambiente dinamico ed evoluto di chiamate agli strumenti. In questo lavoro proponiamo PORTool, un metodo di apprendimento per rinforzo (RL) che incentiva un LLM per l'uso di strumenti a esplorare varie traiettorie che portano alla risposta corretta. Nello specifico, il metodo inizia generando multiple rollout per una data query, alcune delle quali condividono i primi passi di chiamata agli strumenti, formando così una struttura ad albero. Successivamente, assegniamo ricompense a ogni passo, basate sulla sua capacità di produrre una risposta corretta e effettuare chiamate agli strumenti con successo. Un passo condiviso da diverse traiettorie riceve la stessa ricompensa, mentre passi diversi sotto lo stesso ramo ricevono ricompense diverse. Infine, queste ricompense step-wise vengono utilizzate per calcolare vantaggi relativi ai rami, combinati con vantaggi relativi alle traiettorie, per addestrare l'LLM all'uso degli strumenti. Gli esperimenti utilizzano 17 strumenti per affrontare query utente, coprendo sia argomenti time-sensitive che time-invariant. Condurremo studi di ablazione per giustificare sistematicamente la necessità e la robustezza progettuale delle ricompense step-wise. Inoltre, confronteremo PORTool con altri approcci di addestramento, dimostrando significativi miglioramenti nell'accuratezza finale e nel numero di passi di chiamata agli strumenti.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool: Addestramento di LLM per l'Uso di Strumenti con Albero Premiato

PORTool: Tool-Use LLM Training with Rewarded Tree

Abstract

Support