에이전트 학습을 위한 초기 경험 기반 접근법
Agent Learning via Early Experience
October 9, 2025
저자: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
초록
언어 에이전트의 장기적인 목표는 자신의 경험을 통해 학습하고 개선하여 복잡한 실제 세계의 과제에서 인간을 능가하는 것입니다. 그러나 강화 학습을 통해 경험 데이터로 에이전트를 훈련시키는 것은 많은 환경에서 여전히 어려운 과제입니다. 이는 검증 가능한 보상이 부족한 환경(예: 웹사이트)이나 비효율적인 장기 롤아웃이 필요한 환경(예: 다중 턴 도구 사용) 때문입니다. 결과적으로, 현재 대부분의 에이전트는 전문가 데이터에 대한 지도 미세 조정에 의존하고 있으며, 이는 확장하기 어렵고 일반화가 잘 되지 않는 문제가 있습니다. 이러한 한계는 전문가 시연의 특성에서 비롯됩니다: 전문가 시연은 좁은 범위의 시나리오만을 포착하고 에이전트에게 제한된 환경 다양성을 노출시킵니다. 우리는 이러한 한계를 '초기 경험'이라는 중간 지대 패러다임으로 해결합니다. 초기 경험은 에이전트의 자체 행동으로 생성된 상호작용 데이터로, 결과적인 미래 상태가 보상 신호 없이 감독 역할을 합니다. 이 패러다임 내에서 우리는 이러한 데이터를 사용하는 두 가지 전략을 연구합니다: (1) 암묵적 세계 모델링, 이는 수집된 상태를 사용하여 정책을 환경 역학에 기반하게 합니다; (2) 자기 반성, 여기서 에이전트는 최적이 아닌 행동에서 학습하여 추론과 의사 결정을 개선합니다. 우리는 8가지 다양한 환경과 여러 모델 패밀리에 걸쳐 평가를 진행했습니다. 우리의 접근 방식은 효과성과 도메인 외 일반화를 꾸준히 개선하며, 초기 경험의 가치를 강조합니다. 더욱이, 검증 가능한 보상이 있는 환경에서 우리의 결과는 초기 경험이 후속 강화 학습을 위한 강력한 기반을 제공하며, 모방 학습과 완전한 경험 주도 에이전트 사이의 실용적인 다리 역할을 할 수 있음을 시사합니다.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.