ChatPaper.aiChatPaper

GenEnv : Co-évolution alignée sur la difficulté entre agents LLM et simulateurs d'environnement

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

December 22, 2025
papers.authors: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI

papers.abstract

L'entraînement d'agents basés sur des modèles de langage de grande taille (LLM) performants est sévèrement limité par le coût élevé et la nature statique des données d'interaction du monde réel. Nous résolvons ce problème en introduisant GenEnv, un cadre qui établit un jeu co-évolutif aligné sur la difficulté entre un agent et un simulateur d'environnement génératif et scalable. Contrairement aux méthodes traditionnelles qui font évoluer les modèles sur des jeux de données statiques, GenEnv instancie une évolution des données : le simulateur agit comme une politique de curriculum dynamique, générant continuellement des tâches spécifiquement adaptées à la « zone de développement proximal » de l'agent. Ce processus est guidé par une récompense de curriculum α simple mais efficace, qui aligne la difficulté des tâches sur les capacités actuelles de l'agent. Nous évaluons GenEnv sur cinq benchmarks, incluant API-Bank, ALFWorld, BFCL, Bamboogle et TravelPlanner. Sur l'ensemble de ces tâches, GenEnv améliore les performances des agents jusqu'à +40,3 % par rapport aux modèles de référence de 7 milliards de paramètres et atteint ou dépasse les performances moyennes de modèles plus larges. Par rapport à une augmentation de données hors ligne basée sur Gemini 2.5 Pro, GenEnv obtient de meilleures performances tout en utilisant 3,3 fois moins de données. En passant d'une supervision statique à une simulation adaptative, GenEnv offre une voie économe en données pour faire évoluer les capacités des agents.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.
PDF122December 24, 2025