Apprentissage Expérientiel en Ligne pour les Modèles de Langage

Résumé

Le paradigme dominant pour améliorer les grands modèles de langage repose sur un apprentissage hors ligne avec des annotations humaines ou des environnements simulés, laissant l'expérience riche accumulée lors des déploiements réels entièrement inexploitée. Nous proposons l'Apprentissage Expérientiel en Ligne (OEL), un cadre qui permet aux modèles de langage de s'améliorer continuellement à partir de leur propre expérience de déploiement. OEL fonctionne en deux étapes : premièrement, des connaissances expérientielles transférables sont extraites et accumulées à partir des trajectoires d'interaction collectées côté utilisateur ; deuxièmement, ces connaissances sont consolidées dans les paramètres du modèle via une distillation contextuelle sur la politique, sans nécessiter d'accès à l'environnement utilisateur. Les deux étapes sont itérées pour former une boucle d'apprentissage en ligne, où le modèle amélioré collecte des trajectoires de meilleure qualité qui produisent des connaissances expérientielles plus riches pour les rounds suivants. Nous évaluons OEL sur des environnements de jeu textuels à différentes échelles de modèles et pour des variantes avec et sans raisonnement. OEL obtient des améliorations constantes sur les itérations successives, augmentant à la fois la précision des tâches et l'efficacité des tokens tout en préservant les performances hors distribution. Notre analyse montre en outre que les connaissances expérientielles extraites sont nettement plus efficaces que les trajectoires brutes, et que la cohérence sur la politique entre la source de connaissances et le modèle de politique est cruciale pour un apprentissage efficace.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Apprentissage Expérientiel en Ligne pour les Modèles de Langage

Online Experiential Learning for Language Models

Résumé

Support