UserRL: Interactieve gebruikersgerichte agenten trainen via reinforcement learning
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
September 24, 2025
Auteurs: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Samenvatting
Reinforcement learning (RL) heeft potentie getoond in het trainen van agentische modellen die verder gaan dan statische benchmarks om deel te nemen aan dynamische, multi-turn interacties. De uiteindelijke waarde van dergelijke agents ligt echter in hun vermogen om gebruikers te assisteren, een setting waarin de diversiteit en dynamiek van gebruikersinteracties uitdagingen vormen. In dit werk stellen we UserRL voor, een uniform raamwerk voor het trainen en evalueren van gebruikersgerichte vaardigheden door middel van gestandaardiseerde gym-omgevingen gekoppeld aan gesimuleerde gebruikers. We variëren systematisch de beloningstoewijzing op turn-niveau en de scoreberekening op trajectniveau om te analyseren hoe verschillende formuleringen het leren onder het GRPO-algoritme beïnvloeden. Onze experimenten met Qwen3-modellen onthullen drie belangrijke bevindingen: (i) SFT cold start is cruciaal voor het ontgrendelen van initieel interactievermogen en het mogelijk maken van aanhoudende RL-verbeteringen; (ii) bewuste trajectscoring leidt tot efficiëntere en effectievere multi-turn interacties; en (iii) hoewel sterkere gesimuleerde gebruikers (bijv. GPT-4o) de training vergemakkelijken, blijven open-source simulatoren (bijv. Qwen3-32B) een kosteneffectieve en overdraagbare optie. Samen benadrukken deze resultaten dat een zorgvuldige ontwerp van beloningsvorming en keuze van gebruikerssimulatie net zo cruciaal is als modelschaal, en vestigen UserRL als een praktische weg voor het ontwikkelen van robuuste gebruikersgerichte agentische modellen. Alle codes en data zijn openbaar voor toekomstig onderzoek.
English
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.