UserRL: 강화 학습을 통한 상호작용적 사용자 중심 에이전트 훈련
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
September 24, 2025
저자: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 정적 벤치마크를 넘어 동적이고 다중 턴 상호작용에 참여하는 에이전트 모델을 훈련하는 데 유망한 가능성을 보여주고 있습니다. 그러나 이러한 에이전트의 궁극적인 가치는 사용자를 지원하는 능력에 있으며, 이는 사용자 상호작용의 다양성과 동적 특성으로 인해 도전 과제를 제기합니다. 본 연구에서는 표준화된 gym 환경과 시뮬레이션된 사용자를 결합하여 사용자 중심 능력을 훈련하고 평가하기 위한 통합 프레임워크인 UserRL을 제안합니다. 우리는 턴 단위 보상 할당과 궤적 단위 점수 계산을 체계적으로 변화시켜 GRPO 알고리즘 하에서 다양한 공식화가 학습에 미치는 영향을 분석합니다. Qwen3 모델을 대상으로 한 실험을 통해 세 가지 주요 결과를 도출했습니다: (i) SFT 콜드 스타트는 초기 상호작용 능력을 발휘하고 지속적인 RL 개선을 가능하게 하는 데 중요합니다; (ii) 의도적인 궤적 점수 계산은 더 효율적이고 효과적인 다중 턴 상호작용을 이끌어냅니다; (iii) 더 강력한 시뮬레이션 사용자(예: GPT-4o)는 훈련을 촉진하지만, 오픈소스 시뮬레이터(예: Qwen3-32B)는 비용 효율적이고 이식 가능한 옵션으로 남아 있습니다. 이러한 결과들은 보다 신중한 보안 설계와 사용자 시뮬레이션 선택이 모델 규모만큼 중요하며, UserRL이 견고한 사용자 중심 에이전트 모델 개발을 위한 실용적인 경로임을 입증합니다. 모든 코드와 데이터는 향후 연구를 위해 공개되어 있습니다.
English
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.