ChatPaper.aiChatPaper

GenEnv: Согласованная по сложности коэволюция между агентами LLM и симуляторами среды

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

December 22, 2025
Авторы: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI

Аннотация

Обучение эффективных агентов на основе больших языковых моделей (LLM) критически ограничено высокой стоимостью и статичностью данных реального взаимодействия. Мы решаем эту проблему, представляя GenEnv — фреймворк, который устанавливает коэволюционную игру с выравниванием по сложности между агентом и масштабируемым генеративным симулятором окружения. В отличие от традиционных методов, которые развивают модели на статических наборах данных, GenEnv реализует эволюцию данных: симулятор действует как динамическая политика построения учебного плана, непрерывно генерируя задачи, специально адаптированные под «зону ближайшего развития» агента. Этот процесс направляется простой, но эффективной α-Curriculum Reward, которая согласовывает сложность задачи с текущими возможностями агента. Мы оцениваем GenEnv на пяти тестовых наборах, включая API-Bank, ALFWorld, BFCL, Bamboogle и TravelPlanner. На этих задачах GenEnv улучшает производительность агента до +40,3% по сравнению с базовыми моделями объемом 7B и соответствует или превосходит среднюю производительность более крупных моделей. По сравнению с оффлайн-аугментацией данных на основе Gemini 2.5 Pro, GenEnv демонстрирует лучшую производительность, используя при этом в 3,3 раза меньше данных. Переходя от статического контроля к адаптивной симуляции, GenEnv обеспечивает ресурсоэффективный путь для масштабирования возможностей агентов.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.
PDF122December 24, 2025