GenEnv: Co-Evoluzione Allineata alla Difficoltà tra Agenti LLM e Simulatori Ambientali
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
December 22, 2025
Autori: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI
Abstract
L'addestramento di agenti basati su Large Language Model (LLM) capaci è fortemente limitato dall'elevato costo e dalla natura statica dei dati di interazione del mondo reale. Affrontiamo questo problema introducendo GenEnv, un framework che stabilisce un gioco co-evolutivo, allineato alla difficoltà, tra un agente e un simulatore di ambiente generativo e scalabile. A differenza dei metodi tradizionali che evolvono i modelli su dataset statici, GenEnv implementa un'evoluzione dei dati: il simulatore funge da politica di curriculum dinamico, generando continuamente compiti specificamente calibrati sulla "zona di sviluppo prossimale" dell'agente. Questo processo è guidato da un semplice ma efficace α-Curriculum Reward, che allinea la difficoltà del compito alle capacità attuali dell'agente. Valutiamo GenEnv su cinque benchmark, tra cui API-Bank, ALFWorld, BFCL, Bamboogle e TravelPlanner. In tutti questi compiti, GenEnv migliora le prestazioni dell'agente fino al +40,3% rispetto ai baseline da 7B di parametri e raggiunge o supera le prestazioni medie di modelli più grandi. Rispetto all'aumento dei dati offline basato su Gemini 2.5 Pro, GenEnv ottiene prestazioni migliori utilizzando 3,3 volte meno dati. Spostando la supervisione da statica ad adattiva tramite simulazione, GenEnv fornisce un percorso efficiente in termini di dati per scalare le capacità degli agenti.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.