ChatPaper.aiChatPaper

GEM: Een Gym voor Agentische LLM's

GEM: A Gym for Agentic LLMs

October 1, 2025
Auteurs: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI

Samenvatting

Het trainingsparadigma voor grote taalmodellen (LLMs) verschuift van statische datasets naar ervaringsgericht leren, waarbij agents vaardigheden verwerven door interactie met complexe omgevingen. Om deze overgang te vergemakkelijken introduceren we GEM (General Experience Maker), een open-source omgevingssimulator ontworpen voor het tijdperk van LLMs. Vergelijkbaar met OpenAI-Gym voor traditionele reinforcement learning (RL), biedt GEM een gestandaardiseerd raamwerk voor de omgeving-agent interface, inclusief asynchrone, vectorized uitvoering voor hoge doorvoer, en flexibele wrappers voor eenvoudige uitbreidbaarheid. GEM beschikt ook over een diverse reeks omgevingen, robuuste geïntegreerde tools, en voorbeeldscripts in één bestand die het gebruik van GEM met vijf populaire RL-trainingsframeworks demonstreren. Daarnaast bieden we een set van baseline-resultaten over 24 omgevingen met behulp van REINFORCE met Return Batch Normalization (ReBN), dat – in tegenstelling tot GRPO – compatibel is met de volledige RL-instelling van dichte beloningen per beurt en betere krediettoewijzing biedt. We voeren verder een eerlijke vergelijking uit van PPO, GRPO en REINFORCE in zowel enkele- als meervoudige beurt-instellingen met behulp van GEM om inzicht te geven in de algoritmische ontwerpen. Tot slot fungeert GEM ook als een handig evaluatie-toolkit naast een trainingsomgeving. We hopen dat dit raamwerk toekomstig onderzoek naar agentische LLMs kan versnellen.
English
The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.
PDF862October 2, 2025