Online Ervaringsgericht Leren voor Taalmodellen

Samenvatting

Het heersende paradigma voor het verbeteren van grote taalmodellen berust op offline training met menselijke annotaties of gesimuleerde omgevingen, waarbij de rijke ervaring die wordt opgedaan tijdens daadwerkelijke inzet volledig onbenut blijft. Wij stellen Online Ervaringsleren (OEL) voor, een raamwerk dat taalmodellen in staat stelt om continu te verbeteren op basis van hun eigen inzetervaring. OEL werkt in twee fasen: eerst wordt overdraagbare ervaringskennis geëxtraheerd en opgebouwd uit interactietrajecten die aan gebruikerszijde worden verzameld; vervolgens wordt deze kennis geconsolideerd in de modelparameters via *on-policy* contextdistillatie, zonder dat toegang tot de gebruikersomgeving nodig is. De twee fasen worden herhaald om een online leerlus te vormen, waarbij het verbeterde model kwalitatief betere trajecten verzamelt die rijkere ervaringskennis opleveren voor volgende iteraties. Wij evalueren OEL in op tekst gebaseerde game-omgevingen, voor verschillende modelschalen en zowel denkende als niet-denkende varianten. OEL behaalt consistente verbeteringen over opeenvolgende iteraties, waarbij zowel de taaknauwkeurigheid als de token-efficiëntie toenemen, terwijl de prestaties bij *out-of-distribution* data behouden blijven. Onze analyse toont verder aan dat geëxtraheerde ervaringskennis aanzienlijk effectiever is dan ruwe trajecten, en dat *on-policy* consistentie tussen de kennisbron en het beleidsmodel cruciaal is voor effectief leren.

English

The prevailing paradigm for improving large language models relies on offline training with human annotations or simulated environments, leaving the rich experience accumulated during real-world deployment entirely unexploited. We propose Online Experiential Learning (OEL), a framework that enables language models to continuously improve from their own deployment experience. OEL operates in two stages: first, transferable experiential knowledge is extracted and accumulated from interaction trajectories collected on the user side; second, this knowledge is consolidated into model parameters via on-policy context distillation, requiring no access to the user-side environment. The two stages are iterated to form an online learning loop, where the improved model collects higher-quality trajectories that yield richer experiential knowledge for subsequent rounds. We evaluate OEL on text-based game environments across multiple model scales and both thinking and non-thinking variants. OEL achieves consistent improvements over successive iterations, enhancing both task accuracy and token efficiency while preserving out-of-distribution performance. Our analysis further shows that extracted experiential knowledge is significantly more effective than raw trajectories, and that on-policy consistency between the knowledge source and the policy model is critical for effective learning.

Online Ervaringsgericht Leren voor Taalmodellen

Online Experiential Learning for Language Models

Samenvatting

Support