UserRL: Training interaktiver nutzerzentrierter Agenten durch Reinforcement Learning

papers.abstract

Reinforcement Learning (RL) hat sich als vielversprechend erwiesen, um agentenbasierte Modelle zu trainieren, die über statische Benchmarks hinausgehen und dynamische, mehrstufige Interaktionen ermöglichen. Der eigentliche Wert solcher Agenten liegt jedoch in ihrer Fähigkeit, Nutzer zu unterstützen – ein Kontext, in dem die Vielfalt und Dynamik der Nutzerinteraktionen Herausforderungen darstellen. In dieser Arbeit schlagen wir UserRL vor, ein einheitliches Framework zur Schulung und Bewertung nutzerzentrierter Fähigkeiten durch standardisierte Gym-Umgebungen in Kombination mit simulierten Nutzern. Wir variieren systematisch die Zuweisung von Belohnungen auf Turn-Ebene und die Berechnung von Trajektorie-basierten Scores, um zu analysieren, wie unterschiedliche Formulierungen das Lernen unter dem GRPO-Algorithmus beeinflussen. Unsere Experimente mit Qwen3-Modellen zeigen drei zentrale Erkenntnisse: (i) Der SFT-Kaltstart ist entscheidend, um die anfängliche Interaktionsfähigkeit freizusetzen und nachhaltige RL-Verbesserungen zu ermöglichen; (ii) gezielte Trajektorie-Bewertung führt zu effizienteren und effektiveren mehrstufigen Interaktionen; und (iii) während stärkere simulierte Nutzer (z. B. GPT-4o) das Training erleichtern, bleiben Open-Source-Simulatoren (z. B. Qwen3-32B) eine kosteneffiziente und übertragbare Option. Zusammengenommen unterstreichen diese Ergebnisse, dass die sorgfältige Gestaltung der Belohnungsformung und die Wahl der Nutzersimulation ebenso entscheidend sind wie die Modellgröße, und etablieren UserRL als praktischen Ansatz zur Entwicklung robuster nutzerzentrierter agentenbasierter Modelle. Alle Codes und Daten sind öffentlich zugänglich, um zukünftige Forschung zu ermöglichen.

English

Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.

UserRL: Training interaktiver nutzerzentrierter Agenten durch Reinforcement Learning

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

papers.abstract

Support