ChatPaper.aiChatPaper

Meta-Bewusstsein stärkt Reasoning-Modelle: Selbstausrichtung durch Verstärkungslernen

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
papers.authors: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

papers.abstract

Aktuelle Studien zu Reasoning-Modellen untersuchen die Meta-Bewusstheit von Sprachmodellen, also die Fähigkeit, selbstständig zu wissen, wie man denkt. Wir argumentieren, dass große Reasoning-Modelle diese Eigenschaft der Meta-Bewusstheit nicht besitzen, indem wir eine gravierende Fehlausrichtung zwischen tatsächlichen Rollouts und vorhergesagten Meta-Informationen nachweisen. Wir postulieren, dass die Ausrichtung der Meta-Vorhersagen mit den tatsächlichen Rollouts zu erheblichen Leistungssteigerungen führen wird. Um diese Hypothese zu überprüfen, entwickeln wir einen Trainingspipeline, der die Meta-Bewusstheit durch Selbstausrichtung (MASA) fördert, und beweisen, dass eine verbesserte Meta-Bewusstheit direkt zu einer höheren Genauigkeit führt. Im Gegensatz zu bestehenden meta-kognitiven Reasoning-Modellen benötigt unsere Methode keine externen Trainingsquellen, sondern nutzt selbstgenerierte Signale, um die Meta-Bewusstheit zu trainieren. Darüber hinaus ermöglicht unsere Methode ein effizientes Training, indem i) Null-Varianz-Prompts, die entweder trivial oder unlösbar sind, herausgefiltert werden und ii) lange Rollouts abgebrochen werden, wenn sie voraussichtlich nicht zu korrekten Antworten führen. Die Ergebnisse sind vielversprechend: Unsere Strategie führt zu signifikanten Verbesserungen sowohl in der Genauigkeit als auch in der Trainingseffizienz bei domänenspezifischen Aufgaben und zeigt eine starke Generalisierung auf domänenübergreifende Benchmarks. Konkret kann unsere Methode das GRPO-Training um mehr als das 1,28-fache beschleunigen, um die gleiche Leistung zu erreichen, und erzielt eine Steigerung der Genauigkeit um 19,3 % auf AIME25 sowie eine durchschnittliche Steigerung von 6,2 % über sechs mathematische Benchmarks. Das Training mit meta-kognitiver Anleitung verbessert die domänenübergreifende Generalisierung und führt zu einer Steigerung von 3,87 % auf GPQA-Diamond sowie einer Gesamtgenauigkeitssteigerung von 2,08 % über 13 Benchmarks, die logische, wissenschaftliche und Programmierdomänen abdecken.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF402October 10, 2025