Online-Erfahrungslernen für Sprachmodelle

Zusammenfassung

Das vorherrschende Paradigma zur Verbesserung großer Sprachmodelle stützt sich auf Offline-Training mit menschlichen Annotationen oder simulierten Umgebungen, wodurch die wertvollen Erfahrungen, die während des realen Einsatzes gesammelt werden, vollständig ungenutzt bleiben. Wir schlagen Online Experiential Learning (OEL) vor, einen Rahmen, der Sprachmodelle in die Lage versetzt, sich kontinuierlich aus ihren eigenen Einsatzexperimenten zu verbessern. OEL operiert in zwei Phasen: Zuerst wird übertragbares Erfahrungswissen aus Interaktionsverläufen extrahiert und angesammelt, die auf Nutzerseite gesammelt wurden; zweitens wird dieses Wissen durch On-Policy-Kondensation im Kontext in Modellparameter konsolidiert, ohne dass ein Zugriff auf die Nutzerumgebung erforderlich ist. Die beiden Phasen werden wiederholt, um eine Online-Lernschleife zu bilden, in der das verbesserte Modell qualitativ hochwertigere Verläufe sammelt, die wiederum reichhaltigeres Erfahrungswissen für nachfolgende Runden liefern. Wir evaluieren OEL in textbasierten Spielumgebungen über verschiedene Modellgrößen hinweg sowie mit Denk- und Nicht-Denk-Varianten. OEL erzielt durchgängige Verbesserungen über aufeinanderfolgende Iterationen, steigert sowohl die Aufgabengenauigkeit als auch die Token-Effizienz und erhält dabei die Out-of-Distribution-Leistung bei. Unsere Analyse zeigt weiterhin, dass extrahiertes Erfahrungswissen signifikant wirksamer ist als rohe Interaktionsverläufe und dass On-Policy-Konsistenz zwischen der Wissensquelle und dem Policy-Modell entscheidend für effektives Lernen ist.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Online-Erfahrungslernen für Sprachmodelle

Online Experiential Learning for Language Models

Zusammenfassung

Support