Internalización de la Experiencia Meta en la Memoria para el Aprendizaje por Refuerzo Guiado en Modelos de Lenguaje a Gran Escala
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
February 10, 2026
Autores: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un enfoque eficaz para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). A pesar de su eficacia, el RLVR enfrenta un cuello de botella de metaaprendizaje: carece de mecanismos para la atribución de errores y la internalización de la experiencia intrínsecos al ciclo de aprendizaje humano más allá de la práctica y la verificación, limitando así la asignación de crédito de grano fino y la formación de conocimiento reutilizable. Denominamos a dichas representaciones de conocimiento reutilizable derivadas de errores pasados como meta-experiencia. Basándonos en esta idea, proponemos el Aprendizaje por Meta-Experiencia (MEL), un marco novedoso que incorpora la meta-experiencia auto-destilada en la memoria paramétrica del modelo. Partiendo del RLVR estándar, introducimos un diseño adicional que aprovecha la capacidad de auto-verificación del LLM para realizar un análisis contrastivo en trayectorias correctas e incorrectas emparejadas, identificar los puntos de bifurcación precisos donde surgen los errores de razonamiento y resumirlos en una meta-experiencia generalizable. La meta-experiencia se internaliza aún más en la memoria paramétrica del LLM minimizando la log-verosimilitud negativa, lo que induce una señal de recompensa modelada por lenguaje que tiende un puente entre las trayectorias de razonamiento correctas e incorrectas y facilita la reutilización efectiva del conocimiento. Los resultados experimentales demuestran que MEL logra mejoras consistentes en puntos de referencia, obteniendo ganancias de Pass@1 del 3.92% al 4.73% en distintos tamaños de modelo.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.