ChatPaper.aiChatPaper

경험 합성을 통한 에이전트 학습 확장

Scaling Agent Learning via Experience Synthesis

November 5, 2025
저자: Zhaorun Chen, Zhuokai Zhao, Kai Zhang, Bo Liu, Qi Qi, Yifan Wu, Tarun Kalluri, Sara Cao, Yuanhao Xiong, Haibo Tong, Huaxiu Yao, Hengduo Li, Jiacheng Zhu, Xian Li, Dawn Song, Bo Li, Jason Weston, Dat Huynh
cs.AI

초록

강화학습(RL)은 상호작용을 통한 자기 개선을 가능하게 하여 대규모 언어 모델(LLM) 에이전트의 역량을 강화할 수 있지만, 비용이 많이 드는 롤아웃, 제한된 작업 다양성, 신뢰할 수 없는 보상 신호, 인프라 복잡성 등으로 인해 실제 적용에는 여전히 어려움이 따릅니다. 이러한 문제들은 모두 확장 가능한 경험 데이터 수집을 방해합니다. 이러한 과제를 해결하기 위해 우리는 자율 에이전트의 효과적인 온라인 RL 훈련을 가능하게 하기 위해 확장성을 고려하여 다양한 경험을 합성하는 최초의 통합 프레임워크인 DreamGym을 소개합니다. 비용이 많이 드는 실제 환경 롤아웃에 의존하는 대신, DreamGym은 환경 역학을 단계별 추론을 통해 일관된 상태 전이와 피드백 신호를 도출하는 추론 기반 경험 모델로 정제하여 RL을 위한 확장 가능한 에이전트 롤아웃 수집을 가능하게 합니다. 전이의 안정성과 품질을 향상시키기 위해 DreamGym은 오프라인 실제 데이터로 초기화되고 새로운 상호작용으로 지속적으로 풍부해지는 경험 재생 버퍼를 활용하여 에이전트 훈련을 능동적으로 지원합니다. 지식 습득을 개선하기 위해 DreamGym은 현재 에이전트 정책에 도전하는 새로운 작업을 적응적으로 생성하여 보다 효과적인 온라인 커리큘럼 학습을 가능하게 합니다. 다양한 환경과 에이전트 백본에서의 실험을 통해 DreamGym이 완전 합성 설정과 시뮬레이션-실제 전이 시나리오 모두에서 RL 훈련을 크게 향상시킴을 입증했습니다. WebArena과 같은 비 RL 최적화 작업에서 DreamGym은 모든 기준선을 30% 이상 능가했습니다. 그리고 RL 최적화되었지만 비용이 많이 드는 설정에서는 합성 상호작용만으로 GRPO 및 PPO 성능을 일치시켰습니다. 순수히 합성 경험으로 훈련된 정책을 실제 환경 RL로 전이할 때, DreamGym은 훨씬 더 적은 실제 상호작용만으로도 상당한 추가 성능 이득을 제공하여 범용 RL을 위한 확장 가능한 웜 스타트 전략을 제공합니다.
English
While reinforcement learning (RL) can empower large language model (LLM) agents by enabling self-improvement through interaction, its practical adoption remains challenging due to costly rollouts, limited task diversity, unreliable reward signals, and infrastructure complexity, all of which obstruct the collection of scalable experience data. To address these challenges, we introduce DreamGym, the first unified framework designed to synthesize diverse experiences with scalability in mind to enable effective online RL training for autonomous agents. Rather than relying on expensive real-environment rollouts, DreamGym distills environment dynamics into a reasoning-based experience model that derives consistent state transitions and feedback signals through step-by-step reasoning, enabling scalable agent rollout collection for RL. To improve the stability and quality of transitions, DreamGym leverages an experience replay buffer initialized with offline real-world data and continuously enriched with fresh interactions to actively support agent training. To improve knowledge acquisition, DreamGym adaptively generates new tasks that challenge the current agent policy, enabling more effective online curriculum learning. Experiments across diverse environments and agent backbones demonstrate that DreamGym substantially improves RL training, both in fully synthetic settings and in sim-to-real transfer scenarios. On non-RL-ready tasks like WebArena, DreamGym outperforms all baselines by over 30%. And in RL-ready but costly settings, it matches GRPO and PPO performance using only synthetic interactions. When transferring a policy trained purely on synthetic experiences to real-environment RL, DreamGym yields significant additional performance gains while requiring far fewer real-world interactions, providing a scalable warm-start strategy for general-purpose RL.
PDF792December 2, 2025