AutoEnv: Entornos Automatizados para Medir el Aprendizaje de Agentes entre Entornos
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
Autores: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Resumen
Los humanos se adaptan naturalmente a entornos diversos aprendiendo reglas subyacentes en mundos con dinámicas, observaciones y estructuras de recompensa diferentes. En contraste, los agentes existentes suelen demostrar mejoras mediante la autoevolución dentro de un único dominio, asumiendo implícitamente una distribución fija del entorno. El aprendizaje cruzado entre entornos ha permanecido en gran medida sin medir: no existe una colección estándar de entornos heterogéneos y controlables, ni una forma unificada de representar cómo aprenden los agentes. Abordamos estas brechas en dos pasos. Primero, proponemos AutoEnv, un marco automatizado que trata los entornos como distribuciones factorizables sobre transiciones, observaciones y recompensas, permitiendo la generación de bajo costo (4.12 USD en promedio) de mundos heterogéneos. Utilizando AutoEnv, construimos AutoEnv-36, un conjunto de datos de 36 entornos con 358 niveles validados, en el cual siete modelos de lenguaje alcanzan una recompensa normalizada del 12-49%, demostrando el desafío que representa AutoEnv-36. Segundo, formalizamos el aprendizaje del agente como un proceso centrado en componentes impulsado por tres etapas de Selección, Optimización y Evaluación aplicadas a un componente del agente mejorable. Usando esta formulación, diseñamos ocho métodos de aprendizaje y los evaluamos en AutoEnv-36. Empíricamente, la ganancia de cualquier método de aprendizaje individual disminuye rápidamente a medida que aumenta el número de entornos, revelando que los métodos de aprendizaje fijos no escalan en entornos heterogéneos. La selección adaptativa al entorno de los métodos de aprendizaje mejora sustancialmente el rendimiento, pero exhibe rendimientos decrecientes a medida que se expande el espacio de métodos. Estos resultados destacan tanto la necesidad como las limitaciones actuales del aprendizaje de agentes para una generalización escalable entre entornos, y posicionan a AutoEnv y AutoEnv-36 como un banco de pruebas para estudiar el aprendizaje de agentes en entornos cruzados. El código está disponible en https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.