AutoEnv: Geautomatiseerde Omgevingen voor het Meten van Grensoverschrijdend Agentleren
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
Auteurs: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Samenvatting
Mensen passen zich van nature aan diverse omgevingen aan door onderliggende regels te leren in werelden met verschillende dynamiek, observaties en beloningsstructuren. Bestaande agents verbeteren daarentegen meestal via zelfevolutie binnen één domein, waarbij impliciet wordt aangenomen dat de omgevingsdistributie vastligt. Leren over omgevingen heen is grotels ongemeten gebleven: er bestaat geen standaardverzameling van controleerbare, heterogene omgevingen, noch een uniforme manier om weer te geven hoe agents leren. Wij adresseren deze leemtes in twee stappen. Ten eerste stellen we AutoEnv voor, een geautomatiseerd framework dat omgevingen behandelt als factoriseerbare distributies over transities, observaties en beloningen, wat de goedkope (gemiddeld 4,12 USD) generatie van heterogene werelden mogelijk maakt. Met AutoEnv construeren we AutoEnv-36, een dataset van 36 omgevingen met 358 gevalideerde niveaus, waarop zeven taalmodellen een genormaliseerde beloning van 12-49% behalen, wat de uitdaging van AutoEnv-36 aantoont. Ten tweede formaliseren we agentleren als een componentgericht proces, aangedreven door drie fasen van Selectie, Optimalisatie en Evaluatie toegepast op een verbeterbaar agentcomponent. Met deze formulering ontwerpen we acht leermethoden en evalueren deze op AutoEnv-36. Empirisch neemt de winst van elke individuele leermethode snel af naarmate het aantal omgevingen toeneemt, wat aantoont dat vaste leermethoden niet schalen over heterogene omgevingen heen. Omgevingsadaptieve selectie van leermethoden verbetert de prestaties aanzienlijk, maar vertoont afnemende meeropbrengsten naarmate de methoderuimte uitbreidt. Deze resultaten benadrukken zowel de noodzaak als de huidige beperkingen van agentleren voor schaalbare generalisatie over omgevingen heen, en positioneren AutoEnv en AutoEnv-36 als een testomgeving voor het bestuderen van agentleren over omgevingen heen. De code is beschikbaar op https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.