Apprentissage des agents par l'expérience précoce
Agent Learning via Early Experience
October 9, 2025
papers.authors: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
papers.abstract
Un objectif à long terme des agents linguistiques est d'apprendre et de s'améliorer grâce à leur propre expérience, surpassant finalement les humains dans des tâches complexes et réalistes. Cependant, l'entraînement des agents à partir de données d'expérience avec l'apprentissage par renforcement reste difficile dans de nombreux environnements, qui manquent soit de récompenses vérifiables (par exemple, les sites web), soit nécessitent des déploiements inefficaces sur le long terme (par exemple, l'utilisation d'outils en plusieurs étapes). En conséquence, la plupart des agents actuels s'appuient sur un ajustement supervisé à partir de données expertes, ce qui est difficile à mettre à l'échelle et généralise mal. Cette limitation découle de la nature des démonstrations expertes : elles ne capturent qu'un éventail restreint de scénarios et exposent l'agent à une diversité limitée d'environnements. Nous abordons cette limitation avec un paradigme intermédiaire que nous appelons l'expérience précoce : des données d'interaction générées par les actions de l'agent lui-même, où les états futurs résultants servent de supervision sans signaux de récompense. Dans ce paradigme, nous étudions deux stratégies d'utilisation de ces données : (1) la modélisation implicite du monde, qui utilise les états collectés pour ancrer la politique dans la dynamique de l'environnement ; et (2) l'auto-réflexion, où l'agent apprend de ses actions sous-optimales pour améliorer son raisonnement et sa prise de décision. Nous évaluons ces approches dans huit environnements divers et plusieurs familles de modèles. Nos méthodes améliorent systématiquement l'efficacité et la généralisation hors domaine, soulignant la valeur de l'expérience précoce. De plus, dans les environnements avec des récompenses vérifiables, nos résultats fournissent des signaux prometteurs que l'expérience précoce offre une base solide pour un apprentissage par renforcement ultérieur, la positionnant comme un pont pratique entre l'apprentissage par imitation et les agents entièrement pilotés par l'expérience.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.