Усиление многозадачного рассуждения в агентах на основе крупных языковых моделей через пошаговое распределение вклада
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment
May 17, 2025
Авторы: Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong
cs.AI
Аннотация
В данной статье исследуются подходы к улучшению способностей к рассуждению агентов на основе больших языковых моделей (LLM) с использованием обучения с подкреплением (RL). В частности, мы сосредоточены на сценариях многошагового использования инструментов, которые естественным образом могут быть смоделированы как марковские процессы принятия решений (MDP). Хотя существующие подходы часто обучают многошаговых LLM-агентов с оценкой преимуществ на уровне траекторий в условиях бандитских задач, они сталкиваются с трудностями в распределении вклада на уровне отдельных шагов при принятии решений, что ограничивает их производительность в задачах многошагового рассуждения. Для решения этой проблемы мы предлагаем стратегию более детальной оценки преимуществ на уровне отдельных шагов, что позволяет более точно распределять вклад в многошаговых взаимодействиях агентов. Эта стратегия является универсальной и может быть интегрирована в различные алгоритмы RL, такие как Group Relative Preference Optimization (GRPO). Наши эксперименты на задачах многошагового рассуждения и использования инструментов на основе поиска с реализациями GRPO демонстрируют эффективность MDP-подхода и распределения вклада на уровне шагов в улучшении способностей LLM-агентов к многошаговому рассуждению в сложных условиях принятия решений. Наш метод достигает 100% успешности в выполнении инструментов и 50% точности в точном совпадении ответов, значительно превосходя базовые методы, которые не могут вызывать инструменты и достигают точности совпадения всего 20-30%.
English
This paper investigates approaches to enhance the reasoning capabilities of
Large Language Model (LLM) agents using Reinforcement Learning (RL).
Specifically, we focus on multi-turn tool-use scenarios, which can be naturally
modeled as Markov Decision Processes (MDPs). While existing approaches often
train multi-turn LLM agents with trajectory-level advantage estimation in
bandit settings, they struggle with turn-level credit assignment across
multiple decision steps, limiting their performance on multi-turn reasoning
tasks. To address this, we introduce a fine-grained turn-level advantage
estimation strategy to enable more precise credit assignment in multi-turn
agent interactions. The strategy is general and can be incorporated into
various RL algorithms such as Group Relative Preference Optimization (GRPO).
Our experimental evaluation on multi-turn reasoning and search-based tool-use
tasks with GRPO implementations highlights the effectiveness of the MDP
framework and the turn-level credit assignment in advancing the multi-turn
reasoning capabilities of LLM agents in complex decision-making settings. Our
method achieves 100% success in tool execution and 50% accuracy in exact answer
matching, significantly outperforming baselines, which fail to invoke tools and
achieve only 20-30% exact match accuracy.Summary
AI-Generated Summary