GenEnv: Coevolução Alinhada à Dificuldade entre Agentes de LLM e Simuladores de Ambiente

Resumo

A capacitação de agentes eficazes baseados em Large Language Models (LLMs) é severamente limitada pelo alto custo e pela natureza estática dos dados de interação do mundo real. Nós abordamos este problema introduzindo o GenEnv, um framework que estabelece um jogo coevolutivo, alinhado por dificuldade, entre um agente e um simulador de ambiente generativo e escalável. Diferente dos métodos tradicionais que evoluem modelos em conjuntos de dados estáticos, o GenEnv instancia uma evolução de dados: o simulador atua como uma política de currículo dinâmico, gerando continuamente tarefas especificamente adaptadas à "zona de desenvolvimento proximal" do agente. Este processo é guiado por uma simples mas eficaz Recompensa de Currículo-α, que alinha a dificuldade da tarefa com as capacidades atuais do agente. Avaliamos o GenEnv em cinco benchmarks, incluindo API-Bank, ALFWorld, BFCL, Bamboogle e TravelPlanner. Nestas tarefas, o GenEnv melhora o desempenho do agente em até +40,3% em relação às linhas de base de 7B (7 bilhões de parâmetros) e iguala ou supera o desempenho médio de modelos maiores. Em comparação com a aumentação de dados offline baseada no Gemini 2.5 Pro, o GenEnv alcança um desempenho superior utilizando 3,3 vezes menos dados. Ao mudar da supervisão estática para a simulação adaptativa, o GenEnv fornece um caminho eficiente em dados para escalar as capacidades dos agentes.

English

Training capable Large Language Model (LLM) agents is critically bottlenecked by the high cost and static nature of real-world interaction data. We address this by introducing GenEnv, a framework that establishes a difficulty-aligned co-evolutionary game between an agent and a scalable, generative environment simulator. Unlike traditional methods that evolve models on static datasets, GenEnv instantiates a dataevolving: the simulator acts as a dynamic curriculum policy, continuously generating tasks specifically tailored to the agent's ``zone of proximal development''. This process is guided by a simple but effective α-Curriculum Reward, which aligns task difficulty with the agent's current capabilities. We evaluate GenEnv on five benchmarks, including API-Bank, ALFWorld, BFCL, Bamboogle, and TravelPlanner. Across these tasks, GenEnv improves agent performance by up to +40.3\% over 7B baselines and matches or exceeds the average performance of larger models. Compared to Gemini 2.5 Pro-based offline data augmentation, GenEnv achieves better performance while using 3.3times less data. By shifting from static supervision to adaptive simulation, GenEnv provides a data-efficient pathway for scaling agent capabilities.

GenEnv: Coevolução Alinhada à Dificuldade entre Agentes de LLM e Simuladores de Ambiente

GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

Resumo

Support