AutoEnv: 크로스-환경 에이전트 학습 측정을 위한 자동화된 환경
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
November 24, 2025
저자: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
초록
인간은 다양한 역학, 관측, 보상 구조를 가진 세계들에서 내재된 규칙을 학습함으로써 자연스럽게 다양한 환경에 적응합니다. 반면, 기존 에이전트들은 일반적으로 단일 도메인 내에서 자기 진화를 통해 향상을 보여주며, 이는 암묵적으로 고정된 환경 분포를 가정합니다. 교차 환경 학습은 대부분 측정되지 않은 채 남아있었는데, 이는 통제 가능하고 이질적인 환경들의 표준 컬렉션도, 에이전트 학습 방식을 통일적으로 표현하는 방법도 없기 때문입니다. 우리는 이러한 격차를 두 단계로 해결합니다. 첫째, 환경을 전이, 관측, 보상에 대한 인수분해 가능한 분포로 취급하여 이질적인 세계의 저비용(평균 4.12 USD) 생성을 가능하게 하는 자동화된 프레임워크인 AutoEnv를 제안합니다. AutoEnv를 사용하여 358개의 검증된 레벨을 가진 36개 환경의 데이터셋인 AutoEnv-36을 구축했으며, 7개의 언어 모델이 이 데이터셋에서 12-49%의 정규화된 보상을 달성하여 AutoEnv-36의 도전 과제를 입증했습니다. 둘째, 우리는 에이전트 학습을 개선 가능한 에이전트 구성요소에 적용된 선택, 최적화, 평가의 세 단계로 구동되는 구성요소 중심 프로세스로 공식화합니다. 이 공식화를 바탕으로 8가지 학습 방법을 설계하고 AutoEnv-36에서 이를 평가합니다. 실증적으로, 단일 학습 방법의 이득은 환경 수가 증가함에 따라 빠르게 감소하여 고정된 학습 방법이 이질적인 환경 간에 확장되지 않음을 보여줍니다. 학습 방법의 환경 적응적 선택은 성능을 상당히 개선하지만, 방법 공간이 확장됨에 따라 체감 수익을 나타냅니다. 이러한 결과는 확장 가능한 교차 환경 일반화를 위한 에이전트 학습의 필요성과 현재의 한계를 동시에 강조하며, AutoEnv와 AutoEnv-36을 교차 환경 에이전트 학습 연구를 위한 테스트베드로 위치시킵니다. 코드는 https://github.com/FoundationAgents/AutoEnv에서 확인할 수 있습니다.
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.