PORTool: Treinamento de LLM para Uso de Ferramentas com Árvore de Recompensas
PORTool: Tool-Use LLM Training with Rewarded Tree
October 29, 2025
Autores: Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rodin Luo, Jing Gao
cs.AI
Resumo
Os modelos de linguagem de grande porte (LLMs) atuais para uso de ferramentas são treinados em conjuntos de dados estáticos, permitindo-lhes interagir com ferramentas externas e realizar raciocínio multi-etapa integrado a ferramentas, o que produz trajetórias de chamadas de ferramentas. No entanto, esses modelos imitam como uma consulta é resolvida em uma rotina genérica de chamadas de ferramentas, falhando assim em explorar soluções possíveis e demonstrando desempenho limitado em um ambiente dinâmico e evoluído de chamadas de ferramentas. Neste trabalho, propomos o PORTool, um método de aprendizado por reforço (RL) que incentiva um LLM de uso de ferramentas a explorar várias trajetórias que levam à resposta correta. Especificamente, este método começa gerando múltiplas execuções (rollouts) para uma determinada consulta, sendo que algumas delas compartilham os primeiros passos de chamada de ferramentas, formando assim uma estrutura em forma de árvore. Em seguida, atribuímos recompensas a cada passo, com base em sua capacidade de produzir uma resposta correta e realizar chamadas de ferramentas bem-sucedidas. Um passo compartilhado entre diferentes trajetórias recebe a mesma recompensa, enquanto passos diferentes sob a mesma bifurcação recebem recompensas diferentes. Finalmente, essas recompensas em nível de passo são usadas para calcular vantagens relativas à bifurcação, combinadas com vantagens relativas à trajetória, para treinar o LLM no uso de ferramentas. Os experimentos utilizam 17 ferramentas para abordar consultas de usuários, abrangendo tópicos sensíveis ao tempo e invariantes no tempo. Realizamos estudos de ablação para justificar sistematicamente a necessidade e a robustez do projeto das recompensas em nível de passo. Além disso, comparamos o PORTool proposto com outras abordagens de treinamento e demonstramos melhorias significativas na precisão final e no número de passos de chamada de ferramentas.
English
Current tool-use large language models (LLMs) are trained on static datasets,
enabling them to interact with external tools and perform multi-step,
tool-integrated reasoning, which produces tool-call trajectories. However,
these models imitate how a query is resolved in a generic tool-call routine,
thereby failing to explore possible solutions and demonstrating limited
performance in an evolved, dynamic tool-call environment. In this work, we
propose PORTool, a reinforcement learning (RL) method that encourages a
tool-use LLM to explore various trajectories yielding the correct answer.
Specifically, this method starts with generating multiple rollouts for a given
query, and some of them share the first few tool-call steps, thereby forming a
tree-like structure. Next, we assign rewards to each step, based on its ability
to produce a correct answer and make successful tool calls. A shared step
across different trajectories receives the same reward, while different steps
under the same fork receive different rewards. Finally, these step-wise rewards
are used to calculate fork-relative advantages, blended with
trajectory-relative advantages, to train the LLM for tool use. The experiments
utilize 17 tools to address user queries, covering both time-sensitive and
time-invariant topics. We conduct ablation studies to systematically justify
the necessity and the design robustness of step-wise rewards. Furthermore, we
compare the proposed PORTool with other training approaches and demonstrate
significant improvements in final accuracy and the number of tool-call steps.