GEM: Un Gimnasio para LLMs Agénticos

Resumen

El paradigma de entrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) está evolucionando desde conjuntos de datos estáticos hacia el aprendizaje basado en experiencias, donde los agentes adquieren habilidades mediante la interacción con entornos complejos. Para facilitar esta transición, presentamos GEM (General Experience Maker), un simulador de entornos de código abierto diseñado para la era de los LLMs. Análogo a OpenAI-Gym para el aprendizaje por refuerzo (RL) tradicional, GEM proporciona un marco estandarizado para la interfaz entorno-agente, incluyendo ejecución vectorizada asíncrona para un alto rendimiento y envoltorios flexibles para una fácil extensibilidad. GEM también cuenta con un conjunto diverso de entornos, herramientas integradas robustas y scripts de ejemplo en un solo archivo que demuestran el uso de GEM con cinco marcos de entrenamiento de RL populares. Junto con esto, también proporcionamos un conjunto de líneas base en 24 entornos utilizando REINFORCE con Normalización de Lotes de Retorno (ReBN), que, a diferencia de GRPO, es compatible con el escenario completo de RL de recompensas densas por turno y ofrece una mejor asignación de créditos. Además, realizamos una comparación directa de PPO, GRPO y REINFORCE en configuraciones de uno y varios turnos utilizando GEM para arrojar luz sobre los diseños algorítmicos. Por último, GEM también funciona como un kit de evaluación conveniente además de un entorno de entrenamiento. Esperamos que este marco pueda ayudar a acelerar la investigación futura en LLMs agentivos.

English

The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.

GEM: Un Gimnasio para LLMs Agénticos

GEM: A Gym for Agentic LLMs

Resumen

Support