UserRL : Formation d'un agent interactif centré sur l'utilisateur via l'apprentissage par renforcement
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
September 24, 2025
papers.authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) a démontré son potentiel pour entraîner des modèles agentiques qui dépassent les benchmarks statiques pour s'engager dans des interactions dynamiques et multi-tours. Cependant, la valeur ultime de tels agents réside dans leur capacité à assister les utilisateurs, un contexte où la diversité et la dynamique des interactions utilisateurs posent des défis. Dans ce travail, nous proposons UserRL, un cadre unifié pour l'entraînement et l'évaluation des capacités centrées sur l'utilisateur à travers des environnements gym standardisés couplés à des utilisateurs simulés. Nous faisons varier systématiquement l'attribution des récompenses au niveau des tours et le calcul des scores au niveau des trajectoires pour analyser comment différentes formulations affectent l'apprentissage sous l'algorithme GRPO. Nos expériences sur les modèles Qwen3 révèlent trois résultats clés : (i) le démarrage à froid par SFT est crucial pour débloquer la capacité initiale d'interaction et permettre des améliorations continues par RL ; (ii) un calcul délibéré des scores de trajectoire produit des interactions multi-tours plus efficaces et efficientes ; et (iii) bien que des utilisateurs simulés plus performants (par exemple, GPT-4o) facilitent l'entraînement, les simulateurs open-source (par exemple, Qwen3-32B) restent une option rentable et transférable. Ensemble, ces résultats soulignent qu'une conception minutieuse du façonnage des récompenses et du choix de la simulation utilisateur est aussi cruciale que l'échelle du modèle, et établissent UserRL comme une voie pratique pour développer des modèles agentiques robustes centrés sur l'utilisateur. Tous les codes et données sont publics pour de futures recherches.
English
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.