GEM: Тренажерный зал для агентных языковых моделей
GEM: A Gym for Agentic LLMs
October 1, 2025
Авторы: Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin
cs.AI
Аннотация
Парадигма обучения больших языковых моделей (LLM) переходит от статических наборов данных к обучению на основе опыта, где агенты приобретают навыки через взаимодействие со сложными средами. Чтобы облегчить этот переход, мы представляем GEM (General Experience Maker) — симулятор среды с открытым исходным кодом, разработанный для эпохи LLM. Аналогично OpenAI-Gym для традиционного обучения с подкреплением (RL), GEM предоставляет стандартизированную структуру для интерфейса среда-агент, включая асинхронное векторизованное выполнение для высокой пропускной способности и гибкие обертки для простого расширения. GEM также включает разнообразный набор сред, надежные встроенные инструменты и примеры скриптов, демонстрирующих использование GEM с пятью популярными фреймворками для обучения RL. Вместе с этим мы предоставляем набор базовых результатов для 24 сред, используя REINFORCE с нормализацией возврата (ReBN), который, в отличие от GRPO, совместим с полной настройкой RL с плотными наградами за каждый шаг и обеспечивает лучшее распределение заслуг. Мы также проводим прямое сравнение PPO, GRPO и REINFORCE в одношаговых и многошаговых настройках с использованием GEM, чтобы пролить свет на алгоритмические решения. Наконец, GEM также служит удобным инструментом для оценки, помимо среды обучения. Мы надеемся, что этот фреймворк поможет ускорить будущие исследования агентных LLM.
English
The training paradigm for large language models (LLMs) is moving from static
datasets to experience-based learning, where agents acquire skills via
interacting with complex environments. To facilitate this transition we
introduce GEM (General Experience Maker), an open-source environment simulator
designed for the age of LLMs. Analogous to OpenAI-Gym for traditional
reinforcement learning (RL), GEM provides a standardized framework for the
environment-agent interface, including asynchronous vectorized execution for
high throughput, and flexible wrappers for easy extensibility. GEM also
features a diverse suite of environments, robust integrated tools, and
single-file example scripts demonstrating using GEM with five popular RL
training frameworks. Along with this, we also provide a set of baselines across
24 environments using REINFORCE with Return Batch Normalization (ReBN), which
-- unlike GRPO -- is compatible with the full RL setting of dense per-turn
rewards and offers better credit assignment. We further conduct apple-to-apple
benchmarking of PPO, GRPO and REINFORCE in both single- and multi-turn settings
using GEM to shed light on the algorithmic designs. Lastly, GEM also functions
as a convenient evaluation toolkit besides a training environment. We hope this
framework can help accelerate future agentic LLM research.