PORTool: Addestramento di LLM per l'Uso di Strumenti con Albero Premiato
PORTool: Tool-Use LLM Training with Rewarded Tree
October 29, 2025
Autori: Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rodin Luo, Jing Gao
cs.AI
Abstract
Gli attuali modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti vengono addestrati su dataset statici,
consentendo loro di interagire con strumenti esterni e compiere ragionamenti multi-step integrati con strumenti,
producendo così traiettorie di chiamate agli strumenti. Tuttavia, questi modelli imitano la risoluzione di una query
secondo una routine generica di chiamate agli strumenti, fallendo quindi nell'esplorare soluzioni alternative e
dimostrando prestazioni limitate in un ambiente dinamico ed evoluto di chiamate agli strumenti. In questo lavoro
proponiamo PORTool, un metodo di apprendimento per rinforzo (RL) che incentiva un LLM per l'uso di strumenti
a esplorare varie traiettorie che portano alla risposta corretta. Nello specifico, il metodo inizia generando
multiple rollout per una data query, alcune delle quali condividono i primi passi di chiamata agli strumenti,
formando così una struttura ad albero. Successivamente, assegniamo ricompense a ogni passo, basate sulla sua
capacità di produrre una risposta corretta e effettuare chiamate agli strumenti con successo. Un passo condiviso
da diverse traiettorie riceve la stessa ricompensa, mentre passi diversi sotto lo stesso ramo ricevono ricompense diverse.
Infine, queste ricompense step-wise vengono utilizzate per calcolare vantaggi relativi ai rami, combinati con
vantaggi relativi alle traiettorie, per addestrare l'LLM all'uso degli strumenti. Gli esperimenti utilizzano 17 strumenti
per affrontare query utente, coprendo sia argomenti time-sensitive che time-invariant. Condurremo studi di ablazione
per giustificare sistematicamente la necessità e la robustezza progettuale delle ricompense step-wise. Inoltre,
confronteremo PORTool con altri approcci di addestramento, dimostrando significativi miglioramenti nell'accuratezza finale
e nel numero di passi di chiamata agli strumenti.
English
Current tool-use large language models (LLMs) are trained on static datasets,
enabling them to interact with external tools and perform multi-step,
tool-integrated reasoning, which produces tool-call trajectories. However,
these models imitate how a query is resolved in a generic tool-call routine,
thereby failing to explore possible solutions and demonstrating limited
performance in an evolved, dynamic tool-call environment. In this work, we
propose PORTool, a reinforcement learning (RL) method that encourages a
tool-use LLM to explore various trajectories yielding the correct answer.
Specifically, this method starts with generating multiple rollouts for a given
query, and some of them share the first few tool-call steps, thereby forming a
tree-like structure. Next, we assign rewards to each step, based on its ability
to produce a correct answer and make successful tool calls. A shared step
across different trajectories receives the same reward, while different steps
under the same fork receive different rewards. Finally, these step-wise rewards
are used to calculate fork-relative advantages, blended with
trajectory-relative advantages, to train the LLM for tool use. The experiments
utilize 17 tools to address user queries, covering both time-sensitive and
time-invariant topics. We conduct ablation studies to systematically justify
the necessity and the design robustness of step-wise rewards. Furthermore, we
compare the proposed PORTool with other training approaches and demonstrate
significant improvements in final accuracy and the number of tool-call steps.