ChatPaper.aiChatPaper

GenEnv: Coevolución Alineada por Dificultad entre Agentes LLM y Simuladores de Entorno

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

December 22, 2025
Autores: Jiacheng Guo, Ling Yang, Peter Chen, Qixin Xiao, Yinjie Wang, Xinzhe Juan, Jiahao Qiu, Ke Shen, Mengdi Wang
cs.AI

Resumen

La formación de agentes capaces basados en Modelos de Lenguaje a Gran Escala (LLM) se ve limitada críticamente por el alto costo y la naturaleza estática de los datos de interacción del mundo real. Abordamos este problema presentando GenEnv, un marco que establece un juego coevolutivo alineado con la dificultad entre un agente y un simulador de entorno generativo y escalable. A diferencia de los métodos tradicionales que evolucionan modelos en conjuntos de datos estáticos, GenEnv instancia una evolución de datos: el simulador actúa como una política de currículum dinámico, generando continuamente tareas específicamente adaptadas a la "zona de desarrollo próximo" del agente. Este proceso se guía por una Recompensa de Currículum-α simple pero efectiva, que alinea la dificultad de la tarea con las capacidades actuales del agente. Evaluamos GenEnv en cinco benchmarks, incluyendo API-Bank, ALFWorld, BFCL, Bamboogle y TravelPlanner. En estas tareas, GenEnv mejora el rendimiento del agente hasta en un +40,3 % respecto a los modelos base de 7B, igualando o superando el rendimiento promedio de modelos más grandes. En comparación con la aumentación de datos offline basada en Gemini 2.5 Pro, GenEnv logra un mejor rendimiento utilizando 3,3 veces menos datos. Al cambiar de una supervisión estática a una simulación adaptativa, GenEnv proporciona una vía eficiente en datos para escalar las capacidades de los agentes.
English
Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.
PDF122December 24, 2025