Интернализация мета-опыта в память для направленного обучения с подкреплением в больших языковых моделях
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
February 10, 2026
Авторы: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало эффективным подходом для расширения логических возможностей больших языковых моделей (LLM). Несмотря на свою эффективность, RLVR сталкивается с проблемой мета-обучения: в нём отсутствуют механизмы атрибуции ошибок и интернализации опыта, присущие человеческому циклу обучения помимо практики и проверки, что ограничивает точное распределение заслуг и формирование переиспользуемых знаний. Мы обозначаем такие переиспользуемые репрезентации знаний, извлечённые из прошлых ошибок, как мета-опыт. Основываясь на этом наблюдении, мы предлагаем обучение на мета-опыте (MEL) — новую структуру, которая инкорпорирует само-дистиллированный мета-опыт в параметрическую память модели. Развивая стандартный RLVR, мы вводим дополнительный механизм, который использует способность LLM к самопроверке для проведения контрастного анализа парных корректных и ошибочных траекторий, выявления точек бифуркации, в которых возникают логические ошибки, и их обобщения в виде универсального мета-опыта. Мета-опыт далее интернализируется в параметрическую память LLM путём минимизации отрицательного логарифмического правдоподобия, что создаёт сигнал вознаграждения, смоделированный языковой моделью, который связывает корректные и ошибочные логические траектории и способствует эффективному повторному использованию знаний. Результаты экспериментов демонстрируют, что MEL обеспечивает стабильное улучшение на бенчмарках, давая прирост Pass@1 в 3,92%–4,73% для моделей разного размера.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.