GenEnv: LLMエージェントと環境シミュレータ間の難易度調整型共進化
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
December 22, 2025
著者: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI
要旨
高性能な大規模言語モデル(LLM)エージェントの学習は、実世界インタラクションデータの高コスト性と静的な性質によって重大なボトルネックに直面している。本研究ではこの問題に対処するため、エージェントとスケーラブルな生成型環境シミュレータの間で難易度調整された共進化的ゲームを確立するフレームワーク「GenEnv」を提案する。静的なデータセットでモデルを進化させる従来手法とは異なり、GenEnvはデータ進化を実現する。シミュレータは動的なカリキュラムポリシーとして機能し、エージェントの「最近接発達領域」に特化して調整されたタスクを継続的に生成する。このプロセスは、タスクの難易度をエージェントの現在の能力に適合させる、シンプルかつ効果的なα-Curriculum Rewardによって導かれる。GenEnvをAPI-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークで評価した結果、7Bパラメータベースラインに対して最大+40.3%の性能向上を達成し、大規模モデルの平均性能に匹敵またはそれを上回った。Gemini 2.5 Proベースのオフラインデータ拡張と比較して、GenEnvは使用データ量を3.3分の1に抑えながら、より優れた性能を発揮した。静的監督から適応的シミュレーションへとパラダイムを転換するGenEnvは、エージェント能力をスケーリングするためのデータ効率的な経路を提供する。
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.