Internalizando a Metaexperiência na Memória para Aprendizado por Reforço Guiado em Modelos de Linguagem de Grande Porte

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como uma abordagem eficaz para aprimorar as capacidades de raciocínio dos Grandes Modelos de Linguagem (LLMs). Apesar de sua eficácia, o RLVR enfrenta um gargalo de meta-aprendizado: ele carece de mecanismos para atribuição de erro e internalização de experiência intrínsecos ao ciclo de aprendizado humano, indo além da prática e verificação, limitando assim a atribuição de crédito refinada e a formação de conhecimento reutilizável. Denominamos tais representações de conhecimento reutilizável, derivadas de erros passados, como meta-experiência. Com base nessa percepção, propomos o Aprendizado por Meta-Experiência (MEL), uma estrutura inovadora que incorpora a meta-experiência auto-destilada na memória paramétrica do modelo. Com base no RLVR padrão, introduzimos um projeto adicional que aproveita a capacidade de autoverificação do LLM para conduzir uma análise contrastiva em trajetórias corretas e incorretas pareadas, identificar os pontos de bifurcação precisos onde os erros de raciocínio surgem e resumi-los em meta-experiência generalizável. A meta-experiência é ainda mais internalizada na memória paramétrica do LLM pela minimização da log-verossimilhança negativa, o que induz um sinal de recompensa modelado pela linguagem que conecta trajetórias de raciocínio corretas e incorretas e facilita a reutilização eficaz do conhecimento. Resultados experimentais demonstram que o MEL alcança melhorias consistentes em benchmarks, obtendo ganhos de 3,92% a 4,73% no Pass@1 em diversos tamanhos de modelo.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.

Internalizando a Metaexperiência na Memória para Aprendizado por Reforço Guiado em Modelos de Linguagem de Grande Porte

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

Resumo

Support