PORTool: Treinamento de LLM para Uso de Ferramentas com Árvore de Recompensas

Resumo

Os modelos de linguagem de grande porte (LLMs) atuais para uso de ferramentas são treinados em conjuntos de dados estáticos, permitindo-lhes interagir com ferramentas externas e realizar raciocínio multi-etapa integrado a ferramentas, o que produz trajetórias de chamadas de ferramentas. No entanto, esses modelos imitam como uma consulta é resolvida em uma rotina genérica de chamadas de ferramentas, falhando assim em explorar soluções possíveis e demonstrando desempenho limitado em um ambiente dinâmico e evoluído de chamadas de ferramentas. Neste trabalho, propomos o PORTool, um método de aprendizado por reforço (RL) que incentiva um LLM de uso de ferramentas a explorar várias trajetórias que levam à resposta correta. Especificamente, este método começa gerando múltiplas execuções (rollouts) para uma determinada consulta, sendo que algumas delas compartilham os primeiros passos de chamada de ferramentas, formando assim uma estrutura em forma de árvore. Em seguida, atribuímos recompensas a cada passo, com base em sua capacidade de produzir uma resposta correta e realizar chamadas de ferramentas bem-sucedidas. Um passo compartilhado entre diferentes trajetórias recebe a mesma recompensa, enquanto passos diferentes sob a mesma bifurcação recebem recompensas diferentes. Finalmente, essas recompensas em nível de passo são usadas para calcular vantagens relativas à bifurcação, combinadas com vantagens relativas à trajetória, para treinar o LLM no uso de ferramentas. Os experimentos utilizam 17 ferramentas para abordar consultas de usuários, abrangendo tópicos sensíveis ao tempo e invariantes no tempo. Realizamos estudos de ablação para justificar sistematicamente a necessidade e a robustez do projeto das recompensas em nível de passo. Além disso, comparamos o PORTool proposto com outras abordagens de treinamento e demonstramos melhorias significativas na precisão final e no número de passos de chamada de ferramentas.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool: Treinamento de LLM para Uso de Ferramentas com Árvore de Recompensas

PORTool: Tool-Use LLM Training with Rewarded Tree

Resumo

Support