GenEnv: LLM 에이전트와 환경 시뮬레이터 간 난이도 정렬 공동 진화
GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators
December 22, 2025
저자: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI
초록
능력 있는 대규모 언어 모델(LLM) 에이전트의 훈련은 실제 상호작용 데이터의 높은 비용과 정적인 특성으로 인해 심각한 병목 현상에 직면해 있습니다. 우리는 이러한 문제를 해결하기 위해 에이전트와 확장 가능한 생성형 환경 시뮬레이터 간에 난이도가 조정된 공진화 게임을 구축하는 GenEnv 프레임워크를 제안합니다. 정적 데이터셋에서 모델을 진화시키는 기존 방법과 달리, GenEnv는 데이터를 진화시키는 방식을 구현합니다. 시뮬레이터는 동적인 커리큘럼 정책 역할을 하여 에이전트의 '근접 발달 영역'에 맞춤화된 작업을 지속적으로 생성합니다. 이 과정은 작업 난이도를 에이전트의 현재 역량에 맞추는 간단하면서도 효과적인 α-커리큘럼 보상에 의해 안내됩니다. 우리는 GenEnv를 API-Bank, ALFWorld, BFCL, Bamboogle, TravelPlanner 등 5가지 벤치마크에서 평가했습니다. 다양한 작업에서 GenEnv는 70억 파라미터 기준 모델 대비 최대 +40.3%의 에이전트 성능 향상을 보였으며, 더 큰 모델들의 평균 성능을 따라잡거나 능가했습니다. Gemini 2.5 Pro 기반 오프라인 데이터 증강 방법과 비교 시, GenEnv는 3.3배 적은 데이터를 사용하면서도 더 나은 성능을 달성했습니다. 정적인 지도 학습에서 적응형 시뮬레이션으로의 전환을 통해 GenEnv는 에이전트 역량 확장을 위한 데이터 효율적인 경로를 제시합니다.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.