ChatPaper.aiChatPaper

Agentleren via vroege ervaring

Agent Learning via Early Experience

October 9, 2025
Auteurs: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI

Samenvatting

Een langetermijndoel van taalagentschappen is om te leren en zich te verbeteren door hun eigen ervaring, waardoor ze uiteindelijk mensen overtreffen in complexe, real-world taken. Het trainen van agentschappen op basis van ervaringsdata met reinforcement learning blijft echter moeilijk in veel omgevingen, die ofwel verifieerbare beloningen missen (bijv. websites) of inefficiënte langetermijnrollouts vereisen (bijv. multi-turn toolgebruik). Als gevolg vertrouwen de meeste huidige agentschappen op supervised fine-tuning van expertdata, wat moeilijk schaalbaar is en slecht generaliseert. Deze beperking komt voort uit de aard van expertdemonstraties: ze vangen slechts een beperkt scala aan scenario's in en blootstellen het agentschap aan beperkte omgevingsdiversiteit. Wij pakken deze beperking aan met een tussenliggend paradigma dat we vroege ervaring noemen: interactiedata gegenereerd door de eigen acties van het agentschap, waarbij de resulterende toekomstige staten dienen als supervisie zonder beloningssignalen. Binnen dit paradigma bestuderen we twee strategieën voor het gebruik van dergelijke data: (1) Impliciete wereldmodellering, waarbij verzamelde staten worden gebruikt om het beleid te verankeren in omgevingsdynamiek; en (2) Zelfreflectie, waarbij het agentschap leert van zijn suboptimale acties om redenering en besluitvorming te verbeteren. We evalueren in acht diverse omgevingen en meerdere modelfamilies. Onze benaderingen verbeteren consistent de effectiviteit en generalisatie buiten het domein, wat de waarde van vroege ervaring benadrukt. Bovendien bieden onze resultaten in omgevingen met verifieerbare beloningen veelbelovende signalen dat vroege ervaring een sterke basis biedt voor vervolg-reinforcement learning, waardoor het zich positioneert als een praktische brug tussen imitatieleren en volledig ervaringsgedreven agentschappen.
English
A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.
PDF2359October 10, 2025