AutoEnv: Ambientes Automatizados para Medição da Aprendizagem de Agentes em Cenários Cruzados
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
Autores: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Resumo
Os seres humanos adaptam-se naturalmente a ambientes diversos, aprendendo regras subjacentes em mundos com dinâmicas, observações e estruturas de recompensa diferentes. Em contraste, os agentes existentes geralmente demonstram melhorias através da auto-evolução dentro de um único domínio, assumindo implicitamente uma distribuição fixa do ambiente. A aprendizagem transversal a ambientes permaneceu largamente não mensurada: não existe uma coleção padrão de ambientes controláveis e heterogéneos, nem uma forma unificada de representar como os agentes aprendem. Nós abordamos estas lacunas em dois passos. Primeiro, propomos o AutoEnv, um framework automatizado que trata os ambientes como distribuições factorizáveis sobre transições, observações e recompensas, permitindo a geração de baixo custo (4,12 USD em média) de mundos heterogéneos. Utilizando o AutoEnv, construímos o AutoEnv-36, um conjunto de dados com 36 ambientes e 358 níveis validados, nos quais sete modelos de linguagem atingem uma recompensa normalizada de 12-49%, demonstrando o desafio que o AutoEnv-36 representa. Segundo, formalizamos a aprendizagem do agente como um processo centrado em componentes, impulsionado por três fases de Seleção, Otimização e Avaliação aplicadas a um componente do agente que pode ser melhorado. Usando esta formulação, projetamos oito métodos de aprendizagem e avaliamo-los no AutoEnv-36. Empiricamente, o ganho de qualquer método de aprendizagem individual diminui rapidamente à medida que o número de ambientes aumenta, revelando que métodos de aprendizagem fixos não são escaláveis em ambientes heterogéneos. A seleção adaptativa ao ambiente dos métodos de aprendizagem melhora substancialmente o desempenho, mas exibe retornos decrescentes à medida que o espaço de métodos se expande. Estes resultados destacam tanto a necessidade como as atuais limitações da aprendizagem de agentes para uma generalização escalável entre ambientes, e posicionam o AutoEnv e o AutoEnv-36 como uma bancada de testes para estudar a aprendizagem de agentes entre ambientes. O código está disponível em https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.