ChatPaper.aiChatPaper

エージェント学習における初期経験の活用

Agent Learning via Early Experience

October 9, 2025
著者: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI

要旨

言語エージェントの長期的な目標は、自身の経験を通じて学習し改善し、複雑な現実世界のタスクにおいて人間を凌駕することです。しかし、強化学習を用いて経験データからエージェントを訓練することは、多くの環境において依然として困難です。これは、検証可能な報酬が欠如している環境(例:ウェブサイト)や、非効率的な長期的なロールアウトを必要とする環境(例:多段階のツール使用)が存在するためです。その結果、現在のほとんどのエージェントは、専門家データを用いた教師ありファインチューニングに依存していますが、これはスケーリングが難しく、汎化性能が低いという課題があります。この制約は、専門家のデモンストレーションの性質に起因しています:それらは限られた範囲のシナリオしか捉えず、エージェントに限られた環境の多様性しか提供しません。私たちはこの制約を、「初期経験」と呼ぶ中間的なパラダイムで解決します:エージェント自身の行動によって生成されるインタラクションデータであり、その結果として得られる将来の状態が報酬信号なしで教師信号として機能します。このパラダイム内で、私たちはそのようなデータを使用する2つの戦略を研究します:(1)暗黙的な世界モデリング:収集された状態を使用して、環境のダイナミクスに基づいてポリシーを接地する;(2)自己反省:エージェントが自身の最適でない行動から学び、推論と意思決定を改善する。私たちは、8つの多様な環境と複数のモデルファミリーにわたって評価を行います。私たちのアプローチは、効果性とドメイン外の汎化性能を一貫して向上させ、初期経験の価値を強調します。さらに、検証可能な報酬がある環境では、初期経験がその後の強化学習のための強力な基盤を提供し、模倣学習と完全な経験駆動型エージェントの間の実用的な橋渡しとして位置づけられることを示す有望な結果が得られました。
English
A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.
PDF1408October 10, 2025