ChatPaper.aiChatPaper

GEM: Um Ginásio para LLMs Agentes

GEM: A Gym for Agentic LLMs

October 1, 2025
Autores: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI

Resumo

O paradigma de treinamento para grandes modelos de linguagem (LLMs) está evoluindo de conjuntos de dados estáticos para o aprendizado baseado em experiência, onde agentes adquirem habilidades por meio da interação com ambientes complexos. Para facilitar essa transição, introduzimos o GEM (General Experience Maker), um simulador de ambiente de código aberto projetado para a era dos LLMs. Análogo ao OpenAI-Gym para o aprendizado por reforço tradicional (RL), o GEM fornece uma estrutura padronizada para a interface ambiente-agente, incluindo execução vetorizada assíncrona para alta produtividade e wrappers flexíveis para fácil extensibilidade. O GEM também apresenta uma diversificada suíte de ambientes, ferramentas robustas integradas e scripts de exemplo em arquivo único que demonstram o uso do GEM com cinco frameworks populares de treinamento RL. Junto disso, também fornecemos um conjunto de linhas de base em 24 ambientes usando REINFORCE com Normalização de Lote de Retorno (ReBN), que — ao contrário do GRPO — é compatível com o cenário completo de RL de recompensas densas por turno e oferece uma melhor atribuição de crédito. Além disso, realizamos uma comparação direta entre PPO, GRPO e REINFORCE em cenários de turno único e múltiplo usando o GEM para esclarecer os designs algorítmicos. Por fim, o GEM também funciona como um kit de ferramentas conveniente para avaliação, além de ser um ambiente de treinamento. Esperamos que essa estrutura possa ajudar a acelerar futuras pesquisas em LLMs agentivos.
English
The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.
PDF862October 2, 2025