ChatPaper.aiChatPaper

メタ認識が推論モデルを強化:自己整合型強化学習

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
著者: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

要旨

最近の推論モデルに関する研究では、言語モデルのメタ認知能力、すなわち自ら考える方法を知る能力が探求されています。我々は、大規模な推論モデルがこのメタ認知特性を欠いていることを、真のロールアウトと予測されたメタ情報との深刻な不一致を証明することで主張します。メタ予測を真のロールアウトと一致させることが、大幅な性能向上につながると我々は考えています。この仮説を検証するため、自己整合によるメタ認知強化(MASA)を促進するトレーニングパイプラインを設計し、強化されたメタ認知が直接的に精度向上に繋がることを証明しました。既存のメタ認知的推論モデルとは異なり、我々の手法は外部のトレーニングソースを必要とせず、自己生成された信号を活用してメタ認知をトレーニングします。さらに、我々の手法は、i)自明または解けないゼロ分散プロンプトをフィルタリングし、ii)正しい答えに導く可能性が低い長いロールアウトを切り捨てることで、効率的なトレーニングを可能にします。結果は非常に有望で、我々の戦略はドメイン内タスクにおいて精度とトレーニング効率の両方で大幅な改善を示し、ドメイン外のベンチマークに対しても強い汎化性能を示しました。具体的には、我々の手法はGRPOトレーニングを1.28倍以上高速化して同じ性能を達成し、AIME25では19.3%の精度向上、6つの数学ベンチマークでは平均6.2%の精度向上を実現しました。メタ認知的ガイダンスによるトレーニングはドメイン外の汎化を強化し、GPQA-Diamondでは3.87%の向上、論理、科学、コーディングのドメインにまたがる13のベンチマーク全体では2.08%の精度向上をもたらしました。
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF402October 10, 2025