ChatPaper.aiChatPaper

La Meta-Conciencia Mejora los Modelos de Razonamiento: Aprendizaje por Refuerzo de Auto-Alineación

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
Autores: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

Resumen

Estudios recientes sobre modelos de razonamiento exploran la meta-conciencia de los modelos de lenguaje, es decir, la capacidad de saber cómo pensar por sí mismos. Argumentamos que los modelos de razonamiento a gran escala carecen de esta propiedad de meta-conciencia al demostrar una grave desalineación entre las ejecuciones reales y la información meta predicha. Postulamos que alinear la predicción meta con las ejecuciones reales conducirá a mejoras significativas en el rendimiento. Para verificar esta hipótesis, diseñamos un pipeline de entrenamiento que potencia la Meta-Conciencia mediante Auto-Alineación (MASA), y demostramos que una mayor meta-conciencia se traduce directamente en una mayor precisión. A diferencia de los modelos de razonamiento meta-cognitivos existentes, nuestro método no requiere fuentes de entrenamiento externas, sino que aprovecha señales auto-generadas para entrenar la meta-conciencia. Además, nuestro método permite un entrenamiento eficiente al i) filtrar indicaciones de varianza cero que son triviales o irresolubles y ii) cortar ejecuciones largas cuando es poco probable que lleven a respuestas correctas. Los resultados son alentadores: nuestra estrategia produce mejoras significativas tanto en precisión como en eficiencia de entrenamiento en tareas dentro del dominio y muestra una fuerte generalización en benchmarks fuera del dominio. Más específicamente, nuestro método puede acelerar el entrenamiento de GRPO en más de 1.28x para alcanzar el mismo rendimiento, y lograr una mejora del 19.3% en precisión en AIME25, y una mejora promedio del 6.2% en seis benchmarks de matemáticas. El entrenamiento con guía meta-cognitiva mejora la generalización fuera del dominio, obteniendo un aumento del 3.87% en GPQA-Diamond y una mejora general del 2.08% en precisión en 13 benchmarks que abarcan dominios lógicos, científicos y de codificación.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF392October 10, 2025