AutoEnv: Automatisierte Umgebungen zur Messung von übergreifendem Agentenlernen
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
papers.authors: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
papers.abstract
Menschen passen sich natürlicherweise an diverse Umgebungen an, indem sie zugrunde liegende Regeln über Welten mit unterschiedlichen Dynamiken, Beobachtungen und Belohnungsstrukturen lernen. Im Gegensatz dazu zeigen bestehende Agenten typischerweise Verbesserungen durch selbstgesteuerte Evolution innerhalb einer einzelnen Domäne, wobei stillschweigend eine feste Umgebungsverteilung angenommen wird. Lernen über Umgebungen hinweg blieb weitgehend unvermessen: Es gibt keine Standardsammlung kontrollierbarer, heterogener Umgebungen noch eine einheitliche Methode, darzustellen, wie Agenten lernen. Wir adressieren diese Lücken in zwei Schritten. Erstens schlagen wir AutoEnv vor, ein automatisiertes Framework, das Umgebungen als faktorisierbare Verteilungen über Transitionen, Beobachtungen und Belohnungen behandelt und so die kostengünstige (durchschnittlich 4,12 USD) Erzeugung heterogener Welten ermöglicht. Mit AutoEnv erstellen wir AutoEnv-36, einen Datensatz aus 36 Umgebungen mit 358 validierten Levels, auf dem sieben Sprachmodelle eine normalisierte Belohnung von 12-49% erreichen, was die Herausforderung von AutoEnv-36 demonstriert. Zweitens formalisieren wir Agenten-Lernen als einen komponentenzentrierten Prozess, der von drei Phasen – Selektion, Optimierung und Evaluation – angetrieben wird, angewendet auf eine verbesserbare Agenten-Komponente. Mit dieser Formulierung entwerfen wir acht Lernmethoden und evaluieren sie auf AutoEnv-36. Empirisch nimmt der Nutzen jeder einzelnen Lernmethode schnell ab, sobald die Anzahl der Umgebungen steigt, was zeigt, dass feste Lernmethoden nicht über heterogene Umgebungen skalieren. Umgebungsadaptive Auswahl von Lernmethoden verbessert die Leistung erheblich, zeigt aber abnehmende Grenzerträge, wenn der Methodenraum erweitert wird. Diese Ergebnisse unterstreichen sowohl die Notwendigkeit als auch die aktuellen Grenzen des Agenten-Lernens für skalierbare generalisierte Anwendung über Umgebungen hinweg und positionieren AutoEnv und AutoEnv-36 als Testumgebung für die Erforschung agentenübergreifenden Lernens. Der Code ist verfügbar unter https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.