ChatPaper.aiChatPaper

UserRL: Обучение интерактивного пользователь-ориентированного агента с помощью обучения с подкреплением

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

September 24, 2025
Авторы: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Аннотация

Обучение с подкреплением (RL) демонстрирует потенциал в обучении агентных моделей, которые выходят за рамки статических бенчмарков и участвуют в динамических, многоходовых взаимодействиях. Однако истинная ценность таких агентов заключается в их способности помогать пользователям, что создает сложности из-за разнообразия и динамики взаимодействия с ними. В данной работе мы предлагаем UserRL — унифицированную структуру для обучения и оценки пользовательских способностей через стандартизированные среды gym, дополненные симулированными пользователями. Мы систематически варьируем назначение наград на уровне ходов и расчет оценок на уровне траекторий, чтобы проанализировать, как различные формулировки влияют на обучение по алгоритму GRPO. Наши эксперименты с моделями Qwen3 выявили три ключевых результата: (i) начальная подготовка с использованием SFT критически важна для раскрытия начальной способности к взаимодействию и обеспечения устойчивых улучшений в RL; (ii) осознанный расчет оценок траекторий приводит к более эффективным и результативным многоходовым взаимодействиям; и (iii) хотя более сильные симулированные пользователи (например, GPT-4o) облегчают обучение, открытые симуляторы (например, Qwen3-32B) остаются экономически выгодным и переносимым вариантом. В совокупности эти результаты подчеркивают, что тщательная разработка формирования наград и выбор симуляции пользователей столь же важны, как и масштаб модели, и устанавливают UserRL как практический путь для создания устойчивых агентных моделей, ориентированных на пользователя. Все коды и данные доступны для будущих исследований.
English
Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.
PDF92September 26, 2025