GEM : Un Gymnase pour les LLM Agentiques
GEM: A Gym for Agentic LLMs
October 1, 2025
papers.authors: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI
papers.abstract
Le paradigme d'entraînement des grands modèles de langage (LLMs) évolue des ensembles de données statiques vers un apprentissage basé sur l'expérience, où les agents acquièrent des compétences via des interactions avec des environnements complexes. Pour faciliter cette transition, nous introduisons GEM (General Experience Maker), un simulateur d'environnement open-source conçu pour l'ère des LLMs. Similaire à OpenAI-Gym pour l'apprentissage par renforcement traditionnel (RL), GEM fournit un cadre standardisé pour l'interface environnement-agent, incluant une exécution vectorisée asynchrone pour un débit élevé, et des wrappers flexibles pour une extensibilité aisée. GEM propose également une suite variée d'environnements, des outils intégrés robustes, et des scripts d'exemple en fichier unique démontrant l'utilisation de GEM avec cinq frameworks populaires d'entraînement RL. Parallèlement, nous fournissons un ensemble de références sur 24 environnements utilisant REINFORCE avec Normalisation par Lots de Retours (ReBN), qui — contrairement à GRPO — est compatible avec le cadre complet du RL de récompenses denses par tour et offre une meilleure attribution de crédit. Nous menons en outre un benchmarking comparatif de PPO, GRPO et REINFORCE dans des configurations à un tour et à plusieurs tours en utilisant GEM pour éclairer les conceptions algorithmiques. Enfin, GEM fonctionne également comme un kit d'évaluation pratique en plus d'un environnement d'entraînement. Nous espérons que ce cadre pourra accélérer les futures recherches sur les LLMs agentiques.
English
The training paradigm for large language models (LLMs) is moving from static
datasets to experience-based learning, where agents acquire skills via
interacting with complex environments. To facilitate this transition we
introduce GEM (General Experience Maker), an open-source environment simulator
designed for the age of LLMs. Analogous to OpenAI-Gym for traditional
reinforcement learning (RL), GEM provides a standardized framework for the
environment-agent interface, including asynchronous vectorized execution for
high throughput, and flexible wrappers for easy extensibility. GEM also
features a diverse suite of environments, robust integrated tools, and
single-file example scripts demonstrating using GEM with five popular RL
training frameworks. Along with this, we also provide a set of baselines across
24 environments using REINFORCE with Return Batch Normalization (ReBN), which
-- unlike GRPO -- is compatible with the full RL setting of dense per-turn
rewards and offers better credit assignment. We further conduct apple-to-apple
benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings
using GEM to shed light on the algorithmic designs. Lastly, GEM also functions
as a convenient evaluation toolkit besides a training environment. We hope this
framework can help accelerate future agentic LLM research.