ChatPaper.aiChatPaper

UserRL: Addestramento di Agenti Interattivi Centrati sull'Utente tramite Apprendimento per Rinforzo

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

September 24, 2025
Autori: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Abstract

L'apprendimento per rinforzo (RL) ha dimostrato potenziale nell'addestrare modelli agentici che vanno oltre i benchmark statici per impegnarsi in interazioni dinamiche e multi-turn. Tuttavia, il valore ultimo di tali agenti risiede nella loro capacità di assistere gli utenti, un contesto in cui la diversità e la dinamicità delle interazioni con l'utente pongono sfide. In questo lavoro, proponiamo UserRL, un framework unificato per l'addestramento e la valutazione delle abilità centrate sull'utente attraverso ambienti gym standardizzati accoppiati con utenti simulati. Variamo sistematicamente l'assegnazione delle ricompense a livello di turno e il calcolo dei punteggi a livello di traiettoria per analizzare come diverse formulazioni influenzano l'apprendimento con l'algoritmo GRPO. I nostri esperimenti sui modelli Qwen3 rivelano tre risultati chiave: (i) l'avvio a freddo con SFT è cruciale per sbloccare l'abilità iniziale di interazione e consentire miglioramenti sostenuti con RL; (ii) il punteggio deliberato delle traiettorie produce interazioni multi-turn più efficienti ed efficaci; e (iii) sebbene utenti simulati più forti (ad esempio, GPT-4o) facilitino l'addestramento, i simulatori open-source (ad esempio, Qwen3-32B) rimangono un'opzione conveniente e trasferibile. Insieme, questi risultati evidenziano che un'attenta progettazione della modellazione delle ricompense e della scelta della simulazione degli utenti è tanto cruciale quanto la scala del modello, e stabiliscono UserRL come un percorso pratico per sviluppare modelli agentici robusti e centrati sull'utente. Tutti i codici e i dati sono pubblici per future ricerche.
English
Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.
PDF112September 26, 2025