メタ経験の記憶への内在化による大規模言語モデルにおける誘導強化学習
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
February 10, 2026
著者: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する効果的な手法として登場した。その有効性にもかかわらず、RLVRはメタ学習のボトルネックに直面している。すなわち、練習と検証を超えた人間の学習サイクルに内在する誤り帰属と経験の内面化のメカニズムを欠いており、これが細粒度の信用割り当てと再利用可能な知識の形成を制限している。我々は、過去の誤りから導出されたこのような再利用可能な知識表現を**メタ経験** と呼ぶ。この知見に基づき、我々は**メタ経験学習(MEL)** という新しいフレームワークを提案する。これは、自己蒸留されたメタ経験をモデルのパラメトリックメモリに組み込むものである。標準的なRLVRを発展させ、LLMの自己検証能力を活用して、正しい軌跡と誤った軌跡の対比分析を行い、推論誤りが生じる正確な分岐点を特定し、それらを一般化可能なメタ経験として要約する追加の設計を導入する。このメタ経験は、負の対数尤度を最小化することでLLMのパラメトリックメモリにさらに内面化され、正しい推論軌跡と誤った推論軌跡を橋渡しする言語モデル化された報酬信号を誘発し、効果的な知識の再利用を促進する。実験結果は、MELがベンチマークで一貫した改善を達成し、様々なモデルサイズにおいて3.92%~4.73%のPass@1向上をもたらすことを示している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.