Meta-bewustzijn verbetert redeneermodellen: Zelf-afstemming met Reinforcement Learning
Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
September 26, 2025
Auteurs: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI
Samenvatting
Recente studies over redeneermodellen onderzoeken het meta-bewustzijn van taalmodel-
len, het vermogen om zelf te weten hoe te denken. Wij stellen dat grote redeneermodellen
dit meta-bewustzijn missen door een ernstige misalignering aan te tonen tussen echte
rollouts en voorspelde meta-informatie. Wij beweren dat het aligneren van meta-voorspel-
lingen met echte rollouts zal leiden tot aanzienlijke prestatieverbeteringen. Om deze
hypothese te verifiëren, ontwerpen we een trainingspijplijn die Meta-Bewustzijn via Zelf-
Alignering (MASA) bevordert, en bewijzen we dat verbeterd meta-bewustzijn direct vertaalt
naar hogere nauwkeurigheid. In tegenstelling tot bestaande meta-cognitieve redeneermodel-
len, vereist onze methode geen externe trainingsbronnen, maar maakt gebruik van zelf-
gegenereerde signalen om meta-bewustzijn te trainen. Bovendien maakt onze methode effi-
ciënte training mogelijk door i) prompts met nulvariantie die triviaal of onoplosbaar
zijn, uit te filteren en ii) lange rollouts af te kappen wanneer ze waarschijnlijk niet
tot correcte antwoorden zullen leiden. De resultaten zijn inspirerend: onze strategie
levert aanzienlijke verbeteringen op in zowel nauwkeurigheid als trainingsefficiëntie
bij taken binnen het domein en toont sterke generalisatie naar benchmarks buiten het
domein. Meer specifiek kan onze methode GRPO-training met meer dan 1,28x versnellen om
dezelfde prestatie te bereiken, en een nauwkeurigheidsverbetering van 19,3% behalen op
AIME25, en een gemiddelde verbetering van 6,2% over zes wiskundige benchmarks. Training
met meta-cognitieve begeleiding verbetert de generalisatie buiten het domein, wat een
verbetering van 3,87% oplevert op GPQA-Diamond en een algehele nauwkeurigheidsverbetering
van 2,08% over 13 benchmarks die logische, wetenschappelijke en coderingsdomeinen beslaan.
English
Recent studies on reasoning models explore the meta-awareness of language
models, the ability to know how to think by itself. We argue that large
reasoning models lack this meta-awareness property by proving severe
misalignment between true rollouts and predicted meta information. We posit
that aligning meta-prediction with true rollouts will lead to significant
performance gains. To verify this hypothesis, we design a training pipeline
that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced
meta-awareness directly translates to improved accuracy. Unlike existing
meta-cognitive reasoning models, our method does not require external training
sources but leverages self-generated signals to train meta-awareness. Moreover,
our method enables efficient training by i) filtering out zero-variance prompts
that are either trivial or unsolvable and ii) cutting off lengthy rollouts when
they are unlikely to lead to correct answers. The results are inspiring: our
strategy yields significant improvements in both accuracy and training
efficiency on in-domain tasks and shows strong generalization to out-of-domain
benchmarks. More specifically, our method can speed up GRPO training by over
1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on
AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with
meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 %
boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks
spanning logical, scientific, and coding domains.