ChatPaper.aiChatPaper

RL de Usuario: Entrenamiento de Agentes Interactivos Centrados en el Usuario mediante Aprendizaje por Refuerzo

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

September 24, 2025
Autores: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado ser prometedor en la formación de modelos agentes que van más allá de los puntos de referencia estáticos para participar en interacciones dinámicas y de múltiples turnos. Sin embargo, el valor último de dichos agentes radica en su capacidad para asistir a los usuarios, un escenario en el que la diversidad y la dinámica de la interacción del usuario plantean desafíos. En este trabajo, proponemos UserRL, un marco unificado para entrenar y evaluar habilidades centradas en el usuario a través de entornos de gimnasio estandarizados combinados con usuarios simulados. Variamos sistemáticamente la asignación de recompensas a nivel de turno y el cálculo de puntuaciones a nivel de trayectoria para analizar cómo diferentes formulaciones afectan el aprendizaje bajo el algoritmo GRPO. Nuestros experimentos en modelos Qwen3 revelan tres hallazgos clave: (i) el inicio en frío de SFT es crucial para desbloquear la capacidad inicial de interacción y permitir mejoras sostenidas en RL; (ii) la puntuación deliberada de trayectorias produce interacciones de múltiples turnos más eficientes y efectivas; y (iii) aunque usuarios simulados más fuertes (por ejemplo, GPT-4o) facilitan el entrenamiento, los simuladores de código abierto (por ejemplo, Qwen3-32B) siguen siendo una opción rentable y transferible. En conjunto, estos resultados destacan que el diseño cuidadoso de la configuración de recompensas y la elección de la simulación de usuarios es tan crucial como la escala del modelo, y establecen a UserRL como una vía práctica para desarrollar modelos agentes robustos centrados en el usuario. Todos los códigos y datos están disponibles públicamente para futuras investigaciones.
English
Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.
PDF92September 26, 2025