Het internaliseren van meta-ervaring in het geheugen voor begeleide reinforcement learning in grote taalmodellen

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een effectieve aanpak om de redeneervermogens van Grote Taalmodellen (LLM's) te verbeteren. Ondanks de doeltreffendheid kampt RLVR met een meta-leerflessenhals: het mist mechanismen voor foutentoerekening en internalisatie van ervaring die inherent zijn aan de menselijke leercyclus, voorbij oefening en verificatie. Dit beperkt een fijnmazige toewijzing van verdienste en de vorming van herbruikbare kennis. Wij duiden dergelijke herbruikbare kennisrepresentaties, afgeleid van eerdere fouten, aan als meta-ervaring. Op basis van dit inzicht stellen wij Meta-Ervaringsleren (MEL) voor, een nieuw raamwerk dat zelf-gedistilleerde meta-ervaring integreert in het parametrische geheugen van het model. Voortbouwend op standaard RLVR introduceren we een aanvullende ontwerpstap die het zelfverificatievermogen van het LLM benut om een contrastieve analyse uit te voeren op gepaarde correcte en incorrecte trajecten, de precieze bifurcatiepunten waar redeneerfouten ontstaan te identificeren, en deze samen te vatten tot generaliseerbare meta-ervaring. De meta-ervaring wordt vervolgens verder geïnternaliseerd in het parametrische geheugen van het LLM door de negatieve log-waarschijnlijkheid te minimaliseren, wat een door het taalmodel gemodelleerd beloningssignaal induceert. Dit signaal vormt een brug tussen correcte en incorrecte redeneertrajecten en vergemakkelijkt effectieve hergebruik van kennis. Experimentele resultaten tonen aan dat MEL consistente verbeteringen bereikt op benchmarks, met 3,92%–4,73% winst in Pass@1 over verschillende modelgroottes heen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.

Het internaliseren van meta-ervaring in het geheugen voor begeleide reinforcement learning in grote taalmodellen

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Samenvatting

Support