AutoEnv: Ambienti Automatici per la Misurazione dell'Apprendimento degli Agenti tra Ambienti Diversi
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
Autori: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Abstract
Gli esseri umani si adattano naturalmente ad ambienti diversi apprendendo regole sottostanti attraverso mondi con dinamiche, osservazioni e strutture di ricompensa differenti. Al contrario, gli agenti esistenti tipicamente dimostrano miglioramenti tramite auto-evoluzione all'interno di un singolo dominio, assumendo implicitamente una distribuzione ambientale fissa. L'apprendimento trasversale agli ambienti è rimasto largamente non misurato: non esiste una raccolta standard di ambienti controllabili ed eterogenei, né un modo unificato per rappresentare come gli agenti apprendono. Affrontiamo queste lacune in due fasi. In primo luogo, proponiamo AutoEnv, un framework automatizzato che tratta gli ambienti come distribuzioni fattorizzabili su transizioni, osservazioni e ricompense, consentendo la generazione a basso costo (4.12 USD in media) di mondi eterogenei. Utilizzando AutoEnv, costruiamo AutoEnv-36, un dataset di 36 ambienti con 358 livelli validati, sul quale sette modelli linguistici raggiungono una ricompensa normalizzata del 12-49%, dimostrando la sfida rappresentata da AutoEnv-36. In secondo luogo, formalizziamo l'apprendimento dell'agente come un processo centrato sui componenti guidato da tre fasi di Selezione, Ottimizzazione e Valutazione applicate a un componente agente migliorabile. Utilizzando questa formulazione, progettiamo otto metodi di apprendimento e li valutiamo su AutoEnv-36. Empiricamente, il guadagno di qualsiasi singolo metodo di apprendimento diminuisce rapidamente all'aumentare del numero di ambienti, rivelando che i metodi di apprendimento fissi non si adattano a ambienti eterogenei. La selezione adattiva all'ambiente dei metodi di apprendimento migliora sostanzialmente le prestazioni ma mostra rendimenti decrescenti man mano che lo spazio dei metodi si espande. Questi risultati evidenziano sia la necessità che le attuali limitazioni dell'apprendimento degli agenti per una generalizzazione scalabile attraverso gli ambienti, e posizionano AutoEnv e AutoEnv-36 come banchi di prova per studiare l'apprendimento trasversale degli agenti. Il codice è disponibile all'indirizzo https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.