ChatPaper.aiChatPaper

GEM: 에이전트형 대형 언어 모델을 위한 체육관

GEM: A Gym for Agentic LLMs

October 1, 2025
저자: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI

초록

대규모 언어 모델(LLM)의 훈련 패러다임은 정적 데이터셋에서 경험 기반 학습으로 전환되고 있으며, 이는 에이전트가 복잡한 환경과 상호작용하며 기술을 습득하는 방식을 의미합니다. 이러한 전환을 촉진하기 위해 우리는 LLM 시대를 위한 오픈소스 환경 시뮬레이터인 GEM(General Experience Maker)을 소개합니다. 전통적인 강화학습(RL)을 위한 OpenAI-Gym과 유사하게, GEM은 환경-에이전트 인터페이스를 위한 표준화된 프레임워크를 제공하며, 여기에는 높은 처리량을 위한 비동기 벡터화 실행과 쉬운 확장성을 위한 유연한 래퍼가 포함됩니다. GEM은 또한 다양한 환경 세트, 견고한 통합 도구, 그리고 GEM을 다섯 가지 인기 있는 RL 훈련 프레임워크와 함께 사용하는 방법을 보여주는 단일 파일 예제 스크립트를 제공합니다. 이와 함께, 우리는 REINFORCE with Return Batch Normalization(ReBN)을 사용하여 24개 환경에 걸친 베이스라인 세트도 제공합니다. 이는 GRPO와 달리 턴당 밀집 보상의 완전한 RL 설정과 호환되며 더 나은 신용 할당을 제공합니다. 또한, 우리는 GEM을 사용하여 단일 턴 및 다중 턴 설정에서 PPO, GRPO, REINFORCE의 동등한 벤치마킹을 수행하여 알고리즘 설계에 대한 통찰을 제공합니다. 마지막으로, GEM은 훈련 환경 외에도 편리한 평가 툴킷으로도 기능합니다. 우리는 이 프레임워크가 미래의 에이전트 기반 LLM 연구를 가속화하는 데 도움이 되기를 바랍니다.
English
The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.
PDF812October 2, 2025