Apprendimento degli Agenti tramite Esperienza Precoce
Agent Learning via Early Experience
October 9, 2025
Autori: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu
cs.AI
Abstract
Un obiettivo a lungo termine degli agenti linguistici è imparare e migliorare attraverso la propria esperienza, superando infine gli esseri umani in compiti complessi e reali. Tuttavia, addestrare agenti a partire da dati di esperienza con l'apprendimento per rinforzo rimane difficile in molti ambienti, che spesso mancano di ricompense verificabili (ad esempio, siti web) o richiedono iterazioni inefficienti su lunghi orizzonti temporali (ad esempio, l'uso di strumenti in più turni). Di conseguenza, la maggior parte degli agenti attuali si affina tramite apprendimento supervisionato su dati esperti, un approccio difficile da scalare e con scarsa capacità di generalizzazione. Questa limitazione deriva dalla natura delle dimostrazioni esperte: esse catturano solo un ristretto insieme di scenari e espongono l'agente a una diversità ambientale limitata. Affrontiamo questa limitazione con un paradigma intermedio che chiamiamo esperienza iniziale: dati di interazione generati dalle azioni stesse dell'agente, in cui gli stati futuri risultanti fungono da supervisione senza segnali di ricompensa. All'interno di questo paradigma, studiamo due strategie per utilizzare tali dati: (1) Modellazione implicita del mondo, che utilizza gli stati raccolti per ancorare la politica alle dinamiche ambientali; e (2) Autoriflessione, in cui l'agente impara dalle sue azioni subottimali per migliorare il ragionamento e il processo decisionale. Valutiamo questi approcci in otto ambienti diversi e su più famiglie di modelli. I nostri metodi migliorano costantemente l'efficacia e la generalizzazione fuori dominio, evidenziando il valore dell'esperienza iniziale. Inoltre, in ambienti con ricompense verificabili, i nostri risultati forniscono segnali promettenti che l'esperienza iniziale offre una solida base per un successivo apprendimento per rinforzo, posizionandola come un ponte pratico tra l'apprendimento per imitazione e agenti completamente guidati dall'esperienza.
English
A long-term goal of language agents is to learn and improve through their own
experience, ultimately outperforming humans in complex, real-world tasks.
However, training agents from experience data with reinforcement learning
remains difficult in many environments, which either lack verifiable rewards
(e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn
tool use). As a result, most current agents rely on supervised fine-tuning on
expert data, which is challenging to scale and generalizes poorly. This
limitation stems from the nature of expert demonstrations: they capture only a
narrow range of scenarios and expose the agent to limited environment
diversity. We address this limitation with a middle-ground paradigm we call
early experience: interaction data generated by the agent's own actions, where
the resulting future states serve as supervision without reward signals. Within
this paradigm we study two strategies of using such data: (1) Implicit world
modeling, which uses collected states to ground the policy in environment
dynamics; and (2) Self-reflection, where the agent learns from its suboptimal
actions to improve reasoning and decision-making. We evaluate across eight
diverse environments and multiple model families. Our approaches consistently
improve effectiveness and out-of-domain generalization, highlighting the value
of early experience. Moreover, in environments with verifiable rewards, our
results provide promising signals that early experience offers a strong
foundation for subsequent reinforcement learning, positioning it as a practical
bridge between imitation learning and fully experience-driven agents.