ChatPaper.aiChatPaper

대규모 언어 모델에서 강화 학습을 안내하기 위한 메타 경험의 메모리 내재화

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

February 10, 2026
저자: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 효과적인 접근법으로 부상하고 있습니다. 그러나 RLVR는 효율성에도 불구하고 메타학습 병목 현상에 직면해 있습니다: 즉, 연습과 검증을 넘어 인간 학습 주기에 내재된 오류 귀인 및 경험 내재화 메커니즘이 부족하여 세밀한 크레딧 할당과 재사용 가능한 지식 형성이 제한됩니다. 우리는 이러한 과거 오류에서 도출된 재사용 가능한 지식 표현을 메타-경험(meta-experience)이라고 명명합니다. 이러한 통찰을 바탕으로, 우리는 자기-증류(self-distilled)된 메타-경험을 모델의 매개변수적 기억에 통합하는 새로운 프레임워크인 메타-경험 학습(MEL)을 제안합니다. 표준 RLVR를 기반으로, 우리는 LLM의 자기-검증 능력을 활용하여 정답과 오답 궤적 쌍에 대한 대조 분석을 수행하고, 추론 오류가 발생하는 정확한 분기점을 식별하며, 이를 일반화 가능한 메타-경험으로 요약하는 추가 설계를 도입합니다. 메타-경험은 음의 로그 가능도를 최소화함으로써 LLM의 매개변수적 기억에 추가로 내재화되며, 이는 정답과 오답 추론 궤적을 연결하고 효과적인 지식 재사용을 촉진하는 언어 모델링된 보상 신호를 유도합니다. 실험 결과는 MEL이 다양한 모델 크기에서 3.92%~4.73%의 Pass@1 성능 향상을 달성하며 벤치마크에서 일관된 개선을 이루는 것을 보여줍니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.
PDF151February 13, 2026