ChatPaper.aiChatPaper

La méta-conscience améliore les modèles de raisonnement : apprentissage par renforcement de l'auto-alignement

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
papers.authors: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

papers.abstract

Les études récentes sur les modèles de raisonnement explorent la méta-conscience des modèles de langage, c'est-à-dire leur capacité à savoir comment penser par eux-mêmes. Nous soutenons que les grands modèles de raisonnement manquent de cette propriété de méta-conscience en démontrant un grave désalignement entre les déroulements réels et les méta-informations prédites. Nous postulons qu'aligner les méta-prédictions avec les déroulements réels entraînera des gains de performance significatifs. Pour vérifier cette hypothèse, nous concevons un pipeline d'entraînement qui améliore la Méta-Conscience par Auto-Alignement (MASA), et prouvons qu'une méta-conscience accrue se traduit directement par une amélioration de la précision. Contrairement aux modèles de raisonnement méta-cognitifs existants, notre méthode ne nécessite pas de sources d'entraînement externes mais exploite des signaux auto-générés pour entraîner la méta-conscience. De plus, notre méthode permet un entraînement efficace en i) filtrant les prompts à variance nulle qui sont soit triviaux, soit insolubles, et ii) en interrompant les déroulements longs lorsqu'ils sont peu susceptibles de mener à des réponses correctes. Les résultats sont encourageants : notre stratégie apporte des améliorations significatives à la fois en précision et en efficacité d'entraînement sur des tâches intra-domaines et montre une forte généralisation sur des benchmarks hors-domaines. Plus précisément, notre méthode peut accélérer l'entraînement GRPO de plus de 1,28x pour atteindre la même performance, et obtenir un gain de précision de 19,3 % sur AIME25, et un gain moyen de 6,2 % sur six benchmarks mathématiques. L'entraînement avec guidage méta-cognitif améliore la généralisation hors-domaines, offrant une augmentation de 3,87 % sur GPQA-Diamond et un gain de précision global de 2,08 % sur 13 benchmarks couvrant les domaines logiques, scientifiques et de codage.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF392October 10, 2025