GEM: Ein Trainingsraum für agentische LLMs

papers.abstract

Das Trainingsparadigma für große Sprachmodelle (LLMs) entwickelt sich von statischen Datensätzen hin zu erfahrungsbasiertem Lernen, bei dem Agenten Fähigkeiten durch die Interaktion mit komplexen Umgebungen erwerben. Um diesen Übergang zu erleichtern, stellen wir GEM (General Experience Maker) vor, einen Open-Source-Umgebungssimulator, der für das Zeitalter der LLMs entwickelt wurde. Analog zu OpenAI-Gym für traditionelles Reinforcement Learning (RL) bietet GEM einen standardisierten Rahmen für die Schnittstelle zwischen Umgebung und Agent, einschließlich asynchroner vektorisierter Ausführung für hohen Durchsatz und flexibler Wrapper für einfache Erweiterbarkeit. GEM verfügt außerdem über eine vielfältige Sammlung von Umgebungen, robuste integrierte Tools und Einzeldatei-Beispielskripte, die die Verwendung von GEM mit fünf beliebten RL-Trainingsframeworks demonstrieren. Zusätzlich stellen wir eine Reihe von Baselines über 24 Umgebungen hinweg mit REINFORCE mit Return Batch Normalization (ReBN) bereit, das – im Gegensatz zu GRPO – mit dem vollständigen RL-Setting von dichten Belohnungen pro Zug kompatibel ist und eine bessere Kreditverteilung bietet. Wir führen außerdem einen direkten Vergleich von PPO, GRPO und REINFORCE in Einzel- und Mehrzug-Settings mit GEM durch, um Einblicke in die algorithmischen Designs zu gewähren. Schließlich fungiert GEM auch als praktisches Bewertungstoolkit neben einer Trainingsumgebung. Wir hoffen, dass dieser Rahmen die zukünftige Forschung zu agentenbasierten LLMs beschleunigen kann.

English

The training paradigm for large language models (LLMs) is moving from static datasets to experience-based learning, where agents acquire skills via interacting with complex environments. To facilitate this transition we introduce GEM (General Experience Maker), an open-source environment simulator designed for the age of LLMs. Analogous to OpenAI-Gym for traditional reinforcement learning (RL), GEM provides a standardized framework for the environment-agent interface, including asynchronous vectorized execution for high throughput, and flexible wrappers for easy extensibility. GEM also features a diverse suite of environments, robust integrated tools, and single-file example scripts demonstrating using GEM with five popular RL training frameworks. Along with this, we also provide a set of baselines across 24 environments using REINFORCE with Return Batch Normalization (ReBN), which -- unlike GRPO -- is compatible with the full RL setting of dense per-turn rewards and offers better credit assignment. We further conduct apple-to-apple benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings using GEM to shed light on the algorithmic designs. Lastly, GEM also functions as a convenient evaluation toolkit besides a training environment. We hope this framework can help accelerate future agentic LLM research.

GEM: Ein Trainingsraum für agentische LLMs

GEM: A Gym for Agentic LLMs

papers.abstract

Support