ChatPaper.aiChatPaper

Метаосознанность улучшает модели рассуждений: обучение с подкреплением для самонастройки

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

September 26, 2025
Авторы: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI

Аннотация

Недавние исследования моделей рассуждений изучают метаосознанность языковых моделей — способность самостоятельно понимать, как мыслить. Мы утверждаем, что крупные модели рассуждений лишены этого свойства метаосознанности, демонстрируя существенное несоответствие между реальными последовательностями действий и предсказанной метаинформацией. Мы предполагаем, что согласование метапредсказаний с реальными последовательностями действий приведет к значительному улучшению производительности. Для проверки этой гипотезы мы разработали обучающий конвейер, который повышает метаосознанность через само-согласование (MASA), и доказали, что улучшенная метаосознанность напрямую ведет к повышению точности. В отличие от существующих метакогнитивных моделей рассуждений, наш метод не требует внешних источников обучения, а использует самостоятельно генерируемые сигналы для тренировки метаосознанности. Более того, наш метод обеспечивает эффективное обучение за счет: i) фильтрации подсказок с нулевой дисперсией, которые либо тривиальны, либо неразрешимы, и ii) обрыва длинных последовательностей действий, если они с малой вероятностью приведут к правильному ответу. Результаты вдохновляют: наша стратегия приводит к значительному улучшению как точности, так и эффективности обучения на задачах в рамках домена и демонстрирует сильную обобщаемость на внешние бенчмарки. В частности, наш метод может ускорить обучение GRPO более чем в 1,28 раза для достижения той же производительности, а также обеспечить прирост точности на 19,3% на AIME25 и средний прирост на 6,2% на шести математических бенчмарках. Обучение с метакогнитивным руководством улучшает обобщаемость на внешние домены, давая прирост на 3,87% на GPQA-Diamond и общий прирост точности на 2,08% на 13 бенчмарках, охватывающих логические, научные и программные области.
English
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
PDF402October 10, 2025