UserRL: Training interaktiver nutzerzentrierter Agenten durch Reinforcement Learning
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
September 24, 2025
papers.authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
papers.abstract
Reinforcement Learning (RL) hat sich als vielversprechend erwiesen, um agentenbasierte Modelle zu trainieren, die über statische Benchmarks hinausgehen und dynamische, mehrstufige Interaktionen ermöglichen. Der eigentliche Wert solcher Agenten liegt jedoch in ihrer Fähigkeit, Nutzer zu unterstützen – ein Kontext, in dem die Vielfalt und Dynamik der Nutzerinteraktionen Herausforderungen darstellen. In dieser Arbeit schlagen wir UserRL vor, ein einheitliches Framework zur Schulung und Bewertung nutzerzentrierter Fähigkeiten durch standardisierte Gym-Umgebungen in Kombination mit simulierten Nutzern. Wir variieren systematisch die Zuweisung von Belohnungen auf Turn-Ebene und die Berechnung von Trajektorie-basierten Scores, um zu analysieren, wie unterschiedliche Formulierungen das Lernen unter dem GRPO-Algorithmus beeinflussen. Unsere Experimente mit Qwen3-Modellen zeigen drei zentrale Erkenntnisse: (i) Der SFT-Kaltstart ist entscheidend, um die anfängliche Interaktionsfähigkeit freizusetzen und nachhaltige RL-Verbesserungen zu ermöglichen; (ii) gezielte Trajektorie-Bewertung führt zu effizienteren und effektiveren mehrstufigen Interaktionen; und (iii) während stärkere simulierte Nutzer (z. B. GPT-4o) das Training erleichtern, bleiben Open-Source-Simulatoren (z. B. Qwen3-32B) eine kosteneffiziente und übertragbare Option. Zusammengenommen unterstreichen diese Ergebnisse, dass die sorgfältige Gestaltung der Belohnungsformung und die Wahl der Nutzersimulation ebenso entscheidend sind wie die Modellgröße, und etablieren UserRL als praktischen Ansatz zur Entwicklung robuster nutzerzentrierter agentenbasierter Modelle. Alle Codes und Daten sind öffentlich zugänglich, um zukünftige Forschung zu ermöglichen.
English
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.