Apprendimento Esperienziale Online per Modelli Linguistici

Abstract

Il paradigma predominante per il miglioramento dei grandi modelli linguistici si basa su addestramento offline con annotazioni umane o ambienti simulati, lasciando del tutto inesplorata la ricca esperienza accumulata durante il dispiegamento nel mondo reale. Proponiamo l'Apprendimento Esperienziale Online (OEL), un quadro che consente ai modelli linguistici di migliorare continuamente dalla propria esperienza di dispiegamento. OEL opera in due fasi: in primo luogo, la conoscenza esperienziale trasferibile viene estratta e accumulata dalle traiettorie di interazione raccolte sul lato utente; in secondo luogo, questa conoscenza viene consolidata nei parametri del modello tramite distillazione contestuale on-policy, senza richiedere accesso all'ambiente lato utente. Le due fasi vengono iterate per formare un ciclo di apprendimento online, in cui il modello migliorato raccoglie traiettorie di qualità superiore che forniscono una conoscenza esperienziale più ricca per i round successivi. Valutiamo OEL su ambienti di giochi testuali su più scale di modelli e varianti con e senza ragionamento. OEL ottiene miglioramenti consistenti attraverso iterazioni successive, potenziando sia l'accuratezza del compito che l'efficienza dei token, preservando al contempo le prestazioni fuori distribuzione. La nostra analisi mostra inoltre che la conoscenza esperienziale estratta è significativamente più efficace delle traiettorie grezze e che la coerenza on-policy tra la fonte di conoscenza e il modello policy è cruciale per un apprendimento efficace.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Apprendimento Esperienziale Online per Modelli Linguistici

Online Experiential Learning for Language Models

Abstract

Support