ChatPaper.aiChatPaper

AutoEnv : Environnements automatisés pour mesurer l'apprentissage des agents inter-environnements

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

November 24, 2025
papers.authors: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI

papers.abstract

Les humains s'adaptent naturellement à des environnements divers en apprenant les règles sous-jacentes à travers des mondes aux dynamiques, observations et structures de récompense variées. En revanche, les agents existants démontrent généralement des améliorations via une auto-évolution au sein d'un domaine unique, supposant implicitement une distribution environnementale fixe. L'apprentissage trans-environnemental reste largement non mesuré : il n'existe ni collection standard d'environnements contrôlables et hétérogènes, ni méthode unifiée pour représenter l'apprentissage des agents. Nous comblons ces lacunes en deux étapes. Premièrement, nous proposons AutoEnv, un cadre automatisé traitant les environnements comme des distributions factorisables sur les transitions, observations et récompenses, permettant la génération à faible coût (4,12 USD en moyenne) de mondes hétérogènes. Utilisant AutoEnv, nous construisons AutoEnv-36, un jeu de données de 36 environnements comprenant 358 niveaux validés, sur lesquels sept modèles de langage atteignent 12 à 49% de récompense normalisée, démontrant le défi posé par AutoEnv-36. Deuxièmement, nous formalisons l'apprentissage de l'agent comme un processus centré sur les composants, piloté par trois étapes de Sélection, Optimisation et Évaluation appliquées à un composant agent améliorable. Sur cette base, nous concevons huit méthodes d'apprentissage que nous évaluons sur AutoEnv-36. Empiriquement, le gain de toute méthode unique diminue rapidement avec l'augmentation du nombre d'environnements, révélant que les méthodes fixes ne s'adaptent pas aux environnements hétérogènes. La sélection adaptative des méthodes d'apprentissage améliore substantiellement les performances mais présente des rendements décroissants avec l'expansion de l'espace méthodologique. Ces résultats soulignent à la fois la nécessité et les limitations actuelles de l'apprentissage des agents pour une généralisation trans-environnementale évolutive, et positionnent AutoEnv et AutoEnv-36 comme bancs d'essai pour étudier cet apprentissage. Le code est disponible à https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.
PDF913February 7, 2026