GenEnv: Schwierigkeitsabgestimmte Ko-Evolution zwischen KI-Agenten und Umgebungssimulatoren
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
December 22, 2025
papers.authors: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI
papers.abstract
Die Ausbildung leistungsfähiger Agenten auf Basis großer Sprachmodelle (Large Language Models, LLM) wird kritisch durch die hohen Kosten und die statische Natur von Echtwelt-Interaktionsdaten eingeschränkt. Wir adressieren dieses Problem mit der Einführung von GenEnv, einem Framework, das ein schwierigkeitsabgestimmtes ko-evolutionäres Spiel zwischen einem Agenten und einem skalierbaren, generativen Umgebungssimulator etabliert. Im Gegensatz zu traditionellen Methoden, die Modelle auf statischen Datensätzen trainieren, instanziiert GenEnv eine Datenevolution: Der Simulator fungiert als dynamische Curriculum-Policy, die kontinuierlich Aufgaben generiert, die speziell auf die „Zone der nächsten Entwicklung“ des Agenten zugeschnitten sind. Dieser Prozess wird durch eine einfache, aber effektive α-Curriculum-Belohnung gesteuert, die die Aufgabenschwierigkeit an die aktuellen Fähigkeiten des Agenten anpasst. Wir evaluieren GenEnv anhand von fünf Benchmarks, darunter API-Bank, ALFWorld, BFCL, Bamboogle und TravelPlanner. Über diese Aufgaben hinweg verbessert GenEnv die Agentenleistung um bis zu +40,3 % gegenüber 7B-Baselines und erreicht oder übertrifft die durchschnittliche Leistung größerer Modelle. Im Vergleich zu einer offline-Datenaugmentierung auf Basis von Gemini 2.5 Pro erzielt GenEnv eine bessere Leistung bei gleichzeitig 3,3-mal geringerem Dateneinsatz. Durch den Wechsel von statischer Überwachung zu adaptiver Simulation bietet GenEnv einen dateneffizienten Weg zur Skalierung von Agentenfähigkeiten.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.