ChatPaper.aiChatPaper

GEM:エージェンシックLLMのためのジム

GEM: A Gym for Agentic LLMs

October 1, 2025
著者: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI

要旨

大規模言語モデル(LLM)のトレーニングパラダイムは、静的なデータセットから経験ベースの学習へと移行しつつあり、エージェントは複雑な環境との相互作用を通じてスキルを獲得する。この移行を促進するため、我々はGEM(General Experience Maker)を導入する。これはLLM時代に向けて設計されたオープンソースの環境シミュレータであり、従来の強化学習(RL)におけるOpenAI-Gymに相当する。GEMは、環境とエージェントのインターフェースを標準化するフレームワークを提供し、非同期ベクトル化実行による高スループットや、容易な拡張性を実現する柔軟なラッパーを含む。また、GEMは多様な環境スイート、堅牢な統合ツール、および5つの主要なRLトレーニングフレームワークとGEMを使用する単一ファイルのサンプルスクリプトを特徴とする。これに加えて、我々はReBN(Return Batch Normalization)を適用したREINFORCEを用いて、24の環境にわたるベースラインを提供する。ReBNはGRPOとは異なり、密なターンごとの報酬を伴う完全なRL設定と互換性があり、より優れたクレジット割り当てを提供する。さらに、PPO、GRPO、およびREINFORCEをGEMを使用してシングルターンおよびマルチターンの設定で公平にベンチマークし、アルゴリズム設計に関する洞察を提供する。最後に、GEMはトレーニング環境だけでなく、便利な評価ツールキットとしても機能する。このフレームワークが、将来のエージェント型LLM研究の加速に役立つことを期待する。
English
The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.
PDF812October 2, 2025