ChatPaper.aiChatPaper

Internalisierung von Meta-Erfahrung in das Gedächtnis zur gesteuerten Verstärkungslernens in großen Sprachmodellen

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

February 10, 2026
papers.authors: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI

papers.abstract

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als effektiver Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erwiesen. Trotz seiner Wirksamkeit stößt RLVR auf einen Meta-Learning-Flaschenhals: Es fehlen Mechanismen für Fehlerattribuierung und Erfahrungsverinnerlichung, die im menschlichen Lernzyklus jenseits von Übung und Verifikation intrinsisch vorhanden sind, was eine feinkörnige Kreditzuweisung und die Bildung wiederverwendbaren Wissens begrenzt. Solche wiederverwendbaren Wissensrepräsentationen, die aus vergangenen Fehlern abgeleitet werden, bezeichnen wir als Meta-Erfahrung. Auf dieser Grundlage schlagen wir Meta-Experience Learning (MEL) vor, einen neuartigen Rahmen, der selbst-destillierte Meta-Erfahrung in das parametrische Gedächtnis des Modells integriert. Aufbauend auf standardmäßigem RLVR führen wir ein zusätzliches Design ein, das die Selbstverifikationsfähigkeit des LLMs nutzt, um eine kontrastive Analyse gepaarter korrekter und inkorrekter Trajektorien durchzuführen, die genauen Bifurkationspunkte zu identifizieren, an denen Reasoning-Fehler entstehen, und diese in verallgemeinerbare Meta-Erfahrung zusammenzufassen. Die Meta-Erfahrung wird weiter in das parametrische Gedächtnis des LLMs internalisiert, indem die negative Log-Likelihood minimiert wird, was ein sprachmodelliertes Belohnungssignal induziert, das korrekte und inkorrekte Reasoning-Trajektorien überbrückt und eine effektive Wiederverwendung von Wissen ermöglicht. Experimentelle Ergebnisse zeigen, dass MEL konsistente Verbesserungen auf Benchmarks erzielt und je nach Modellgröße Steigerungen von 3,92 % bis 4,73 % bei Pass@1 bewirkt.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.
PDF151February 13, 2026