UserRL: Treinando Agentes Interativos Centrados no Usuário via Aprendizado por Reforço
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
September 24, 2025
Autores: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumo
O aprendizado por reforço (RL) tem mostrado potencial no treinamento de modelos agentes que vão além de benchmarks estáticos para se engajar em interações dinâmicas e multi-turnos. No entanto, o valor final desses agentes reside em sua capacidade de auxiliar os usuários, um cenário onde a diversidade e a dinâmica da interação do usuário apresentam desafios. Neste trabalho, propomos o UserRL, um framework unificado para treinar e avaliar habilidades centradas no usuário por meio de ambientes padronizados de ginásio (gym) combinados com usuários simulados. Variamos sistematicamente a atribuição de recompensas no nível de turno e o cálculo de pontuação no nível de trajetória para analisar como diferentes formulações afetam o aprendizado sob o algoritmo GRPO. Nossos experimentos com modelos Qwen3 revelam três descobertas principais: (i) o início frio com SFT é crucial para desbloquear a capacidade inicial de interação e permitir melhorias contínuas com RL; (ii) a pontuação deliberada de trajetórias resulta em interações multi-turnos mais eficientes e eficazes; e (iii) embora usuários simulados mais fortes (por exemplo, GPT-4o) facilitem o treinamento, simuladores de código aberto (por exemplo, Qwen3-32B) permanecem uma opção econômica e transferível. Juntos, esses resultados destacam que o design cuidadoso da modelagem de recompensas e a escolha da simulação de usuários são tão cruciais quanto a escala do modelo, e estabelecem o UserRL como um caminho prático para o desenvolvimento de modelos agentes robustos e centrados no usuário. Todos os códigos e dados estão públicos para pesquisas futuras.
English
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.