Internaliser la méta-expérience dans la mémoire pour l'apprentissage par renforcement guidé dans les grands modèles de langage
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
February 10, 2026
papers.authors: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme une approche efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Malgré son efficacité, le RLVR se heurte à un goulot d'étranglement en méta-apprentissage : il manque de mécanismes d'attribution d'erreur et d'intériorisation de l'expérience, intrinsèques au cycle d'apprentissage humain au-delà de la pratique et de la vérification, limitant ainsi l'attribution fine du crédit et la formation de connaissances réutilisables. Nous désignons ces représentations de connaissances réutilisables, dérivées d'erreurs passées, comme la méta-expérience. Sur la base de cette idée, nous proposons l'apprentissage par méta-expérience (MEL), un nouveau cadre qui intègre une méta-expérience auto-distillée dans la mémoire paramétrique du modèle. En s'appuyant sur le RLVR standard, nous introduisons une conception supplémentaire qui exploite la capacité d'auto-vérification du LLM pour mener une analyse contrastive sur des trajectoires correctes et incorrectes appariées, identifier les points de bifurcation précis où surviennent les erreurs de raisonnement, et les synthétiser en une méta-expérience généralisable. La méta-expérience est ensuite internalisée dans la mémoire paramétrique du LLM en minimisant la log-vraisemblance négative, ce qui induit un signal de récompense modélisé par le langage. Ce signal fait le pont entre les trajectoires de raisonnement correctes et incorrectes et facilite la réutilisation efficace des connaissances. Les résultats expérimentaux démontrent que MEL permet des améliorations constantes sur les benchmarks, avec des gains Pass@1 de 3,92 % à 4,73 % pour différentes tailles de modèles.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.