ChatPaper.aiChatPaper

에이전트 학습을 위한 초기 경험 기반 접근법

Agent Learning via Early Experience

October 9, 2025
저자: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI

초록

언어 에이전트의 장기적인 목표는 자신의 경험을 통해 학습하고 개선하여 복잡한 실제 세계의 과제에서 인간을 능가하는 것입니다. 그러나 강화 학습을 통해 경험 데이터로 에이전트를 훈련시키는 것은 많은 환경에서 여전히 어려운 과제입니다. 이는 검증 가능한 보상이 부족한 환경(예: 웹사이트)이나 비효율적인 장기 롤아웃이 필요한 환경(예: 다중 턴 도구 사용) 때문입니다. 결과적으로, 현재 대부분의 에이전트는 전문가 데이터에 대한 지도 미세 조정에 의존하고 있으며, 이는 확장하기 어렵고 일반화가 잘 되지 않는 문제가 있습니다. 이러한 한계는 전문가 시연의 특성에서 비롯됩니다: 전문가 시연은 좁은 범위의 시나리오만을 포착하고 에이전트에게 제한된 환경 다양성을 노출시킵니다. 우리는 이러한 한계를 '초기 경험'이라는 중간 지대 패러다임으로 해결합니다. 초기 경험은 에이전트의 자체 행동으로 생성된 상호작용 데이터로, 결과적인 미래 상태가 보상 신호 없이 감독 역할을 합니다. 이 패러다임 내에서 우리는 이러한 데이터를 사용하는 두 가지 전략을 연구합니다: (1) 암묵적 세계 모델링, 이는 수집된 상태를 사용하여 정책을 환경 역학에 기반하게 합니다; (2) 자기 반성, 여기서 에이전트는 최적이 아닌 행동에서 학습하여 추론과 의사 결정을 개선합니다. 우리는 8가지 다양한 환경과 여러 모델 패밀리에 걸쳐 평가를 진행했습니다. 우리의 접근 방식은 효과성과 도메인 외 일반화를 꾸준히 개선하며, 초기 경험의 가치를 강조합니다. 더욱이, 검증 가능한 보상이 있는 환경에서 우리의 결과는 초기 경험이 후속 강화 학습을 위한 강력한 기반을 제공하며, 모방 학습과 완전한 경험 주도 에이전트 사이의 실용적인 다리 역할을 할 수 있음을 시사합니다.
English
A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.
PDF1408October 10, 2025