GenEnv: Moeilijkheidsafgestemde co-evolutie tussen LLM-agenten en omgevingssimulatoren
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
December 22, 2025
Auteurs: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI
Samenvatting
Het trainen van capabele Large Language Model (LLM)-agenten wordt ernstig beperkt door de hoge kosten en statische aard van real-world interactiedata. Wij pakken dit aan door GenEnv te introduceren, een raamwerk dat een moeilijkheids-afgestemd co-evolutionair spel opzet tussen een agent en een schaalbare, generatieve omgevingssimulator. In tegenstelling tot traditionele methoden die modellen op statische datasets evolueren, instantieert GenEnv een data-evolutie: de simulator fungeert als een dynamisch curriculumbeleid dat continu taken genereert die specifiek zijn afgestemd op de "zone van de naaste ontwikkeling" van de agent. Dit proces wordt geleid door een eenvoudige maar effectieve α-Curriculum Beloning, die de taakmoeilijkheid afstemt op de huidige capaciteiten van de agent. We evalueren GenEnv op vijf benchmarks, waaronder API-Bank, ALFWorld, BFCL, Bamboogle en TravelPlanner. Over deze taken heen verbetert GenEnv de agentprestatie met tot wel +40,3% ten opzichte van 7B-baselines en evenaart of overtreft het de gemiddelde prestatie van grotere modellen. Vergeleken met offline data-augmentatie op basis van Gemini 2.5 Pro behaalt GenEnv betere prestaties terwijl het 3,3 keer minder data gebruikt. Door de verschuiving van statische supervisie naar adaptieve simulatie biedt GenEnv een data-efficiënte route voor het schalen van agentcapaciteiten.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.