エージェント学習における初期経験の活用
Agent Learning via Early Experience
October 9, 2025
著者: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
要旨
言語エージェントの長期的な目標は、自身の経験を通じて学習し改善し、複雑な現実世界のタスクにおいて人間を凌駕することです。しかし、強化学習を用いて経験データからエージェントを訓練することは、多くの環境において依然として困難です。これは、検証可能な報酬が欠如している環境(例:ウェブサイト)や、非効率的な長期的なロールアウトを必要とする環境(例:多段階のツール使用)が存在するためです。その結果、現在のほとんどのエージェントは、専門家データを用いた教師ありファインチューニングに依存していますが、これはスケーリングが難しく、汎化性能が低いという課題があります。この制約は、専門家のデモンストレーションの性質に起因しています:それらは限られた範囲のシナリオしか捉えず、エージェントに限られた環境の多様性しか提供しません。私たちはこの制約を、「初期経験」と呼ぶ中間的なパラダイムで解決します:エージェント自身の行動によって生成されるインタラクションデータであり、その結果として得られる将来の状態が報酬信号なしで教師信号として機能します。このパラダイム内で、私たちはそのようなデータを使用する2つの戦略を研究します:(1)暗黙的な世界モデリング:収集された状態を使用して、環境のダイナミクスに基づいてポリシーを接地する;(2)自己反省:エージェントが自身の最適でない行動から学び、推論と意思決定を改善する。私たちは、8つの多様な環境と複数のモデルファミリーにわたって評価を行います。私たちのアプローチは、効果性とドメイン外の汎化性能を一貫して向上させ、初期経験の価値を強調します。さらに、検証可能な報酬がある環境では、初期経験がその後の強化学習のための強力な基盤を提供し、模倣学習と完全な経験駆動型エージェントの間の実用的な橋渡しとして位置づけられることを示す有望な結果が得られました。
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.