GEM: Ein Trainingsraum für agentische LLMs
GEM: A Gym for Agentic LLMs
October 1, 2025
papers.authors: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI
papers.abstract
Das Trainingsparadigma für große Sprachmodelle (LLMs) entwickelt sich von statischen Datensätzen hin zu erfahrungsbasiertem Lernen, bei dem Agenten Fähigkeiten durch die Interaktion mit komplexen Umgebungen erwerben. Um diesen Übergang zu erleichtern, stellen wir GEM (General Experience Maker) vor, einen Open-Source-Umgebungssimulator, der für das Zeitalter der LLMs entwickelt wurde. Analog zu OpenAI-Gym für traditionelles Reinforcement Learning (RL) bietet GEM einen standardisierten Rahmen für die Schnittstelle zwischen Umgebung und Agent, einschließlich asynchroner vektorisierter Ausführung für hohen Durchsatz und flexibler Wrapper für einfache Erweiterbarkeit. GEM verfügt außerdem über eine vielfältige Sammlung von Umgebungen, robuste integrierte Tools und Einzeldatei-Beispielskripte, die die Verwendung von GEM mit fünf beliebten RL-Trainingsframeworks demonstrieren. Zusätzlich stellen wir eine Reihe von Baselines über 24 Umgebungen hinweg mit REINFORCE mit Return Batch Normalization (ReBN) bereit, das – im Gegensatz zu GRPO – mit dem vollständigen RL-Setting von dichten Belohnungen pro Zug kompatibel ist und eine bessere Kreditverteilung bietet. Wir führen außerdem einen direkten Vergleich von PPO, GRPO und REINFORCE in Einzel- und Mehrzug-Settings mit GEM durch, um Einblicke in die algorithmischen Designs zu gewähren. Schließlich fungiert GEM auch als praktisches Bewertungstoolkit neben einer Trainingsumgebung. Wir hoffen, dass dieser Rahmen die zukünftige Forschung zu agentenbasierten LLMs beschleunigen kann.
English
The training paradigm for large language models (LLMs) is moving from static
datasets to experience-based learning, where agents acquire skills via
interacting with complex environments. To facilitate this transition we
introduce GEM (General Experience Maker), an open-source environment simulator
designed for the age of LLMs. Analogous to OpenAI-Gym for traditional
reinforcement learning (RL), GEM provides a standardized framework for the
environment-agent interface, including asynchronous vectorized execution for
high throughput, and flexible wrappers for easy extensibility. GEM also
features a diverse suite of environments, robust integrated tools, and
single-file example scripts demonstrating using GEM with five popular RL
training frameworks. Along with this, we also provide a set of baselines across
24 environments using REINFORCE with Return Batch Normalization (ReBN), which
-- unlike GRPO -- is compatible with the full RL setting of dense per-turn
rewards and offers better credit assignment. We further conduct apple-to-apple
benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings
using GEM to shed light on the algorithmic designs. Lastly, GEM also functions
as a convenient evaluation toolkit besides a training environment. We hope this
framework can help accelerate future agentic LLM research.