PORTool: Обучение языковых моделей использованию инструментов с помощью дерева вознаграждений

Аннотация

Современные большие языковые модели (БЯМ), способные использовать инструменты, обучаются на статических наборах данных, что позволяет им взаимодействовать с внешними инструментами и выполнять многошаговые рассуждения с их интеграцией, генерируя траектории вызовов инструментов. Однако эти модели имитируют разрешение запроса в рамках стандартной процедуры вызова инструментов, вследствие чего не исследуют возможные альтернативные решения и демонстрируют ограниченную производительность в развивающейся, динамической среде вызовов инструментов. В данной работе мы предлагаем PORTool — метод обучения с подкреплением (ОП), который побуждает БЯМ, использующую инструменты, исследовать различные траектории, ведущие к правильному ответу. Конкретно, метод начинается с генерации нескольких "прогонов" (rollouts) для заданного запроса, причём некоторые из них имеют общие первые несколько шагов вызовов инструментов, формируя древовидную структуру. Затем мы назначаем вознаграждение каждому шагу на основе его способности давать правильный ответ и выполнять успешные вызовы инструментов. Общий шаг, присутствующий в разных траекториях, получает одинаковое вознаграждение, тогда как разные шаги в рамках одной "вилки" получают разные вознаграждения. Наконец, эти пошаговые вознаграждения используются для расчёта преимуществ относительно вилки, которые комбинируются с преимуществами относительно траектории, для обучения БЯМ использованию инструментов. Эксперименты используют 17 инструментов для обработки пользовательских запросов, охватывающих как чувствительные ко времени, так и инвариантные ко времени темы. Мы проводим абляционные исследования, чтобы систематически обосновать необходимость и надежность конструкции пошаговых вознаграждений. Кроме того, мы сравниваем предложенный метод PORTool с другими подходами к обучению и демонстрируем значительное улучшение итоговой точности и количества шагов вызовов инструментов.

English

Current tool-use large language models (LLMs) are trained on static datasets, enabling them to interact with external tools and perform multi-step, tool-integrated reasoning, which produces tool-call trajectories. However, these models imitate how a query is resolved in a generic tool-call routine, thereby failing to explore possible solutions and demonstrating limited performance in an evolved, dynamic tool-call environment. In this work, we propose PORTool, a reinforcement learning (RL) method that encourages a tool-use LLM to explore various trajectories yielding the correct answer. Specifically, this method starts with generating multiple rollouts for a given query, and some of them share the first few tool-call steps, thereby forming a tree-like structure. Next, we assign rewards to each step, based on its ability to produce a correct answer and make successful tool calls. A shared step across different trajectories receives the same reward, while different steps under the same fork receive different rewards. Finally, these step-wise rewards are used to calculate fork-relative advantages, blended with trajectory-relative advantages, to train the LLM for tool use. The experiments utilize 17 tools to address user queries, covering both time-sensitive and time-invariant topics. We conduct ablation studies to systematically justify the necessity and the design robustness of step-wise rewards. Furthermore, we compare the proposed PORTool with other training approaches and demonstrate significant improvements in final accuracy and the number of tool-call steps.

PORTool: Обучение языковых моделей использованию инструментов с помощью дерева вознаграждений

PORTool: Tool-Use LLM Training with Rewarded Tree

Аннотация

Support