ChatPaper.aiChatPaper

Meta-bewustzijn verbetert redeneermodellen: Zelf-afstemming met Reinforcement Learning

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
Auteurs: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

Samenvatting

Recente studies over redeneermodellen onderzoeken het meta-bewustzijn van taalmodel- len, het vermogen om zelf te weten hoe te denken. Wij stellen dat grote redeneermodellen dit meta-bewustzijn missen door een ernstige misalignering aan te tonen tussen echte rollouts en voorspelde meta-informatie. Wij beweren dat het aligneren van meta-voorspel- lingen met echte rollouts zal leiden tot aanzienlijke prestatieverbeteringen. Om deze hypothese te verifiëren, ontwerpen we een trainingspijplijn die Meta-Bewustzijn via Zelf- Alignering (MASA) bevordert, en bewijzen we dat verbeterd meta-bewustzijn direct vertaalt naar hogere nauwkeurigheid. In tegenstelling tot bestaande meta-cognitieve redeneermodel- len, vereist onze methode geen externe trainingsbronnen, maar maakt gebruik van zelf- gegenereerde signalen om meta-bewustzijn te trainen. Bovendien maakt onze methode effi- ciënte training mogelijk door i) prompts met nulvariantie die triviaal of onoplosbaar zijn, uit te filteren en ii) lange rollouts af te kappen wanneer ze waarschijnlijk niet tot correcte antwoorden zullen leiden. De resultaten zijn inspirerend: onze strategie levert aanzienlijke verbeteringen op in zowel nauwkeurigheid als trainingsefficiëntie bij taken binnen het domein en toont sterke generalisatie naar benchmarks buiten het domein. Meer specifiek kan onze methode GRPO-training met meer dan 1,28x versnellen om dezelfde prestatie te bereiken, en een nauwkeurigheidsverbetering van 19,3% behalen op AIME25, en een gemiddelde verbetering van 6,2% over zes wiskundige benchmarks. Training met meta-cognitieve begeleiding verbetert de generalisatie buiten het domein, wat een verbetering van 3,87% oplevert op GPQA-Diamond en een algehele nauwkeurigheidsverbetering van 2,08% over 13 benchmarks die logische, wetenschappelijke en coderingsdomeinen beslaan.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF554October 10, 2025