Практическое руководство по многошаговому агентному обучению с подкреплением
A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning
October 1, 2025
Авторы: Ruiyi Wang, Prithviraj Ammanabrolu
cs.AI
Аннотация
Мы исследуем, что на самом деле работает, а что нет при обучении крупных языковых моделей (LLM) в качестве агентов с использованием многошагового обучения с подкреплением (RL). Несмотря на быстрый прогресс, существующие подходы и определения остаются разрозненными, и отсутствует систематическая формулировка или анализ того, какие проектные решения имеют значение для различных задач. Мы устраняем этот пробел, сначала разбивая пространство проектирования на три взаимосвязанных компонента — окружение, награда и политика — и эмпирически выводим рецепт для обучения LLM-агентов в текстовых доменах с контекстом. В частности, мы тестируем TextWorld и ALFWorld, популярные домены для проверки контекстного воплощённого мышления, а также SWE-Gym для задач, более близких к программной инженерии. (i) Для окружения мы анализируем влияние сложности задачи с точки зрения размеров пространства состояний и действий, а также длины оптимального решения, обнаруживая, что даже простые среды в рамках домена могут дать представление о том, насколько хорошо агент способен обобщать на более сложные задачи. (ii) Для награды мы исследуем влияние её разреженности, отмечая, что хотя плотные награды на каждом шаге ускоряют обучение, производительность и стабильность сильно зависят от выбора алгоритма RL. (iii) Для политики агента мы изучаем взаимодействие между разреженностью наград и предвзятыми (PPO, GRPO) и беспристрастными (RLOO) методами градиента политики, а также показываем, как найти оптимальное соотношение между обучением с учителем (SFT) и RL при фиксированном бюджете. Мы обобщаем эти результаты в рецепт обучения, который направляет совместное проектирование всех трёх компонентов, способствуя исследованиям и практическим усилиям в области многошагового RL для агентов. Код: https://github.com/pearls-lab/meow-tea-taro
English
We study what actually works and what doesn't for training large language
models as agents via multi-turn reinforcement learning. Despite rapid progress,
existing frameworks and definitions are fragmented, and there is no systematic
formulation or analysis of which design choices matter across tasks. We address
this gap by first breaking down the design space into three inter-related
pillars -- environment, reward, and policy -- and empirically derive a recipe
for training LLM agents in situated textual domains. In particular, we test
TextWorld and ALFWorld, popular domains for testing situated embodied
reasoning, as well as SWE-Gym for more software engineering style tasks. (i)
For the environment, we analyze the impacts of task complexity in terms of
sizes of the state and action spaces as well as optimal solution length,
finding that even simple environments within a domain can provide signal on how
well an agent can generalize to more complex tasks. (ii) For the reward, we
ablate relative reward sparsity, observing that while dense turn-level rewards
accelerate training, performance and stability is highly dependent on the
choice of RL algorithm. (iii) And for the agent's policy, we explore the
interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO)
policy gradient methods in addition to showing how to find the optimal
Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We
distill these findings into a training recipe that guides co-design across the
three pillars, facilitating research and practical efforts in multi-turn
agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro