AutoEnv: Автоматизированные среды для измерения межсредового обучения агентов
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
Авторы: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Аннотация
Люди естественным образом адаптируются к разнообразным средам, изучая базовые правила в мирах с различной динамикой, наблюдениями и структурами вознаграждений. В отличие от этого, существующие агенты обычно демонстрируют улучшения путем саморазвития в рамках единственной области, что подразумевает фиксированное распределение среды. Межсредовое обучение до сих пор в значительной степени не измерялось: отсутствует стандартный набор контролируемых, гетерогенных сред, а также унифицированный способ представления того, как агенты обучаются. Мы устраняем эти пробелы в два этапа. Во-первых, мы предлагаем AutoEnv — автоматизированную систему, которая рассматривает среды как факторизуемые распределения по переходам, наблюдениям и вознаграждениям, что позволяет с низкими затратами (в среднем 4,12 долл. США) генерировать гетерогенные миры. С помощью AutoEnv мы создали AutoEnv-36 — набор данных из 36 сред с 358 проверенными уровнями, на которых семь языковых моделей достигают 12–49% нормированного вознаграждения, что демонстрирует сложность AutoEnv-36. Во-вторых, мы формализуем обучение агента как компонентно-ориентированный процесс, управляемый тремя стадиями — Выбор, Оптимизация и Оценка, — применяемыми к улучшаемому компоненту агента. Используя эту формулировку, мы разрабатываем восемь методов обучения и оцениваем их на AutoEnv-36. Эмпирически показано, что выигрыш от любого отдельного метода обучения быстро уменьшается с ростом числа сред, что свидетельствует о неспособности фиксированных методов обучения масштабироваться в гетерогенных средах. Адаптивный к среде выбор методов обучения существенно улучшает производительность, но демонстрирует убывающую отдачу по мере расширения пространства методов. Эти результаты подчеркивают как необходимость, так и текущие ограничения обучения агентов для масштабируемой межсредовой генерализации и позиционируют AutoEnv и AutoEnv-36 в качестве испытательного стенда для изучения межсредового обучения агентов. Код доступен по адресу https://github.com/FoundationAgents/AutoEnv.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.