Internalizzare la Meta-Esperienza nella Memoria per un Apprendimento per Rinforzo Guidato nei Grandi Modelli Linguistici

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio efficace per potenziare le capacità di ragionamento dei Large Language Model (LLM). Nonostante la sua efficacia, l'RLVR affronta un collo di bottiglia di tipo meta-apprenditivo: manca di meccanismi per l'attribuzione degli errori e l'interiorizzazione dell'esperienza, intrinseci al ciclo di apprendimento umano oltre la pratica e la verifica, limitando così un'assegnazione del credito granulare e la formazione di conoscenza riutilizzabile. Definiamo tali rappresentazioni di conoscenza riutilizzabile, derivate da errori passati, come meta-esperienza. Sulla base di questa intuizione, proponiamo il Meta-Experience Learning (MEL), un framework innovativo che incorpora meta-esperienza auto-distillata nella memoria parametrica del modello. Estendendo l'RLVR standard, introduciamo un design aggiuntivo che sfrutta la capacità di auto-verifica dell'LLM per condurre un'analisi contrastiva su traiettorie corrette ed errate accoppiate, identificare i precisi punti di biforcazione in cui insorgono gli errori di ragionamento e sintetizzarli in meta-esperienza generalizzabile. La meta-esperienza viene ulteriormente interiorizzata nella memoria parametrica dell'LLM minimizzando la log-verosimiglianza negativa, il che induce un segnale di ricompensa modellato linguisticamente che collega le traiettorie di ragionamento corrette ed errate e facilita un efficace riutilizzo della conoscenza. I risultati sperimentali dimostrano che MEL raggiunge miglioramenti consistenti sui benchmark, ottenendo guadagni del 3,92%–4,73% in Pass@1 attraverso diverse dimensioni del modello.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.

Internalizzare la Meta-Esperienza nella Memoria per un Apprendimento per Rinforzo Guidato nei Grandi Modelli Linguistici

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Abstract

Support