ChatPaper.aiChatPaper

AutoEnv:クロス環境エージェント学習評価のための自動化環境

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

November 24, 2025
著者: Jiayi Zhang, Yiran Peng, Fanqi Kong, Yang Cheng, Yifan Wu, Zhaoyang Yu, Jinyu Xiang, Jianhao Ruan, Jinlin Wang, Maojia Song, HongZhang Liu, Xiangru Tang, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI

要旨

人間は、異なるダイナミクス、観測、報酬構造を持つ世界において、背後にある規則を学習することで多様な環境に自然に適応する。一方、既存のエージェントは通常、単一ドメイン内での自己進化を通じて改善を示し、環境分布が固定されていることを暗黙に仮定している。環境横断的な学習はほとんど測定されていない:制御可能で不均質な環境の標準的なコレクションも、エージェントの学習方法を統一して表現する方法も存在しない。我々はこれらの課題を二段階で解決する。第一に、環境を遷移、観測、報酬に関する分解可能な分布として扱い、低コスト(平均4.12米ドル)で不均質な世界を生成可能な自動化フレームワークAutoEnvを提案する。AutoEnvを用いて、36の環境と358の検証済みレベルからなるデータセットAutoEnv-36を構築し、7つの言語モデルが正規化報酬12-49%を達成することを実証し、AutoEnv-36の難易度を示した。第二に、エージェント学習を、改善可能なエージェントコンポーネントに適用される選択、最適化、評価の3段階から構成されるコンポーネント中心のプロセスとして形式化する。この定式化を用いて8つの学習手法を設計し、AutoEnv-36で評価する。実証的に、単一の学習手法の効果は環境数が増加するにつれて急速に低下し、固定された学習手法が不均質な環境にスケールしないことを明らかにした。環境適応的な学習手法の選択は性能を大幅に改善するが、手法空間が拡大するにつれて収穫逓減を示す。これらの結果は、スケーラブルな環境横断的一般化のためのエージェント学習の必要性と現状の限界の両方を浮き彫りにし、AutoEnvとAutoEnv-36を環境横断的エージェント学習を研究するためのテストベッドとして位置づける。コードはhttps://github.com/FoundationAgents/AutoEnvで公開されている。
English
Humans naturally adapt to diverse environments by learning underlying rules across worlds with different dynamics, observations, and reward structures. In contrast, existing agents typically demonstrate improvements via self-evolving within a single domain, implicitly assuming a fixed environment distribution. Cross-environment learning has remained largely unmeasured: there is no standard collection of controllable, heterogeneous environments, nor a unified way to represent how agents learn. We address these gaps in two steps. First, we propose AutoEnv, an automated framework that treats environments as factorizable distributions over transitions, observations, and rewards, enabling low-cost (4.12 USD on average) generation of heterogeneous worlds. Using AutoEnv, we construct AutoEnv-36, a dataset of 36 environments with 358 validated levels, on which seven language models achieve 12-49% normalized reward, demonstrating the challenge of AutoEnv-36. Second, we formalize agent learning as a component-centric process driven by three stages of Selection, Optimization, and Evaluation applied to an improvable agent component. Using this formulation, we design eight learning methods and evaluate them on AutoEnv-36. Empirically, the gain of any single learning method quickly decrease as the number of environments increases, revealing that fixed learning methods do not scale across heterogeneous environments. Environment-adaptive selection of learning methods substantially improves performance but exhibits diminishing returns as the method space expands. These results highlight both the necessity and the current limitations of agent learning for scalable cross-environment generalization, and position AutoEnv and AutoEnv-36 as a testbed for studying cross-environment agent learning. The code is avaiable at https://github.com/FoundationAgents/AutoEnv.
PDF883December 3, 2025