GEM: Un Gimnasio para LLMs Agénticos
GEM: A Gym for Agentic LLMs
October 1, 2025
Autores: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI
Resumen
El paradigma de entrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) está evolucionando desde conjuntos de datos estáticos hacia el aprendizaje basado en experiencias, donde los agentes adquieren habilidades mediante la interacción con entornos complejos. Para facilitar esta transición, presentamos GEM (General Experience Maker), un simulador de entornos de código abierto diseñado para la era de los LLMs. Análogo a OpenAI-Gym para el aprendizaje por refuerzo (RL) tradicional, GEM proporciona un marco estandarizado para la interfaz entorno-agente, incluyendo ejecución vectorizada asíncrona para un alto rendimiento y envoltorios flexibles para una fácil extensibilidad. GEM también cuenta con un conjunto diverso de entornos, herramientas integradas robustas y scripts de ejemplo en un solo archivo que demuestran el uso de GEM con cinco marcos de entrenamiento de RL populares. Junto con esto, también proporcionamos un conjunto de líneas base en 24 entornos utilizando REINFORCE con Normalización de Lotes de Retorno (ReBN), que, a diferencia de GRPO, es compatible con el escenario completo de RL de recompensas densas por turno y ofrece una mejor asignación de créditos. Además, realizamos una comparación directa de PPO, GRPO y REINFORCE en configuraciones de uno y varios turnos utilizando GEM para arrojar luz sobre los diseños algorítmicos. Por último, GEM también funciona como un kit de evaluación conveniente además de un entorno de entrenamiento. Esperamos que este marco pueda ayudar a acelerar la investigación futura en LLMs agentivos.
English
The training paradigm for large language models (LLMs) is moving from static
datasets to experience-based learning, where agents acquire skills via
interacting with complex environments. To facilitate this transition we
introduce GEM (General Experience Maker), an open-source environment simulator
designed for the age of LLMs. Analogous to OpenAI-Gym for traditional
reinforcement learning (RL), GEM provides a standardized framework for the
environment-agent interface, including asynchronous vectorized execution for
high throughput, and flexible wrappers for easy extensibility. GEM also
features a diverse suite of environments, robust integrated tools, and
single-file example scripts demonstrating using GEM with five popular RL
training frameworks. Along with this, we also provide a set of baselines across
24 environments using REINFORCE with Return Batch Normalization (ReBN), which
-- unlike GRPO -- is compatible with the full RL setting of dense per-turn
rewards and offers better credit assignment. We further conduct apple-to-apple
benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings
using GEM to shed light on the algorithmic designs. Lastly, GEM also functions
as a convenient evaluation toolkit besides a training environment. We hope this
framework can help accelerate future agentic LLM research.