ChatPaper.aiChatPaper

La Meta-Consapevolezza Potenzia i Modelli di Ragionamento: Apprendimento per Rinforzo con Auto-Allineamento

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
Autori: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

Abstract

Studi recenti sui modelli di ragionamento esplorano la meta-consapevolezza dei modelli linguistici, ovvero la capacità di sapere come pensare autonomamente. Sosteniamo che i modelli di ragionamento su larga scala manchino di questa proprietà di meta-consapevolezza, dimostrando un grave disallineamento tra i rollout veri e le meta-informazioni previste. Proponiamo che l'allineamento delle meta-predizioni con i rollout veri porterà a significativi miglioramenti delle prestazioni. Per verificare questa ipotesi, progettiamo una pipeline di addestramento che potenzia la Meta-Consapevolezza tramite Auto-Allineamento (MASA), e dimostriamo che una meta-consapevolezza migliorata si traduce direttamente in una maggiore accuratezza. A differenza dei modelli di ragionamento meta-cognitivi esistenti, il nostro metodo non richiede fonti di addestramento esterne, ma sfrutta segnali auto-generati per addestrare la meta-consapevolezza. Inoltre, il nostro metodo consente un addestramento efficiente grazie a: i) l'eliminazione di prompt a varianza zero che sono banali o irrisolvibili, e ii) l'interruzione di rollout prolungati quando è improbabile che portino a risposte corrette. I risultati sono incoraggianti: la nostra strategia produce miglioramenti significativi sia in termini di accuratezza che di efficienza di addestramento su task in dominio, e mostra una forte generalizzazione su benchmark out-of-domain. Più specificamente, il nostro metodo può accelerare l'addestramento GRPO di oltre 1,28x per raggiungere le stesse prestazioni, e ottenere un guadagno del 19,3% in accuratezza su AIME25, e un guadagno medio del 6,2% su sei benchmark matematici. L'addestramento con guida meta-cognitiva migliora la generalizzazione out-of-domain, con un aumento del 3,87% su GPQA-Diamond e un guadagno complessivo del 2,08% in accuratezza su 13 benchmark che coprono domini logici, scientifici e di programmazione.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF554October 10, 2025