Meta-Consciência Aprimora Modelos de Raciocínio: Aprendizado por Reforço de Autoalinhamento
Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
September 26, 2025
Autores: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
cs.AI
Resumo
Estudos recentes sobre modelos de raciocínio exploram a meta-consciência dos modelos de linguagem, a capacidade de saber como pensar por si mesmos. Argumentamos que grandes modelos de raciocínio carecem dessa propriedade de meta-consciência, demonstrando um grave desalinhamento entre os verdadeiros rollouts e as meta-informações previstas. Postulamos que alinhar a meta-predição com os verdadeiros rollouts levará a ganhos significativos de desempenho. Para verificar essa hipótese, projetamos um pipeline de treinamento que aumenta a Meta-Consciência por meio de Auto-Alinhamento (MASA), e comprovamos que a meta-consciência aprimorada se traduz diretamente em maior precisão. Diferentemente dos modelos de raciocínio meta-cognitivos existentes, nosso método não requer fontes externas de treinamento, mas aproveita sinais auto-gerados para treinar a meta-consciência. Além disso, nosso método permite um treinamento eficiente ao i) filtrar prompts de variância zero que são triviais ou insolúveis e ii) interromper rollouts longos quando é improvável que levem a respostas corretas. Os resultados são inspiradores: nossa estratégia produz melhorias significativas tanto na precisão quanto na eficiência do treinamento em tarefas do domínio interno e mostra uma forte generalização para benchmarks de domínio externo. Mais especificamente, nosso método pode acelerar o treinamento GRPO em mais de 1,28x para atingir o mesmo desempenho, e alcançar um ganho de 19,3% na precisão no AIME25, e um ganho médio de 6,2% em seis benchmarks de matemática. O treinamento com orientação meta-cognitiva melhora a generalização fora do domínio, proporcionando um aumento de 3,87% no GPQA-Diamond e um ganho geral de precisão de 2,08% em 13 benchmarks que abrangem domínios lógicos, científicos e de codificação.
English
Recent studies on reasoning models explore the meta-awareness of language
models, the ability to know how to think by itself. We argue that large
reasoning models lack this meta-awareness property by proving severe
misalignment between true rollouts and predicted meta information. We posit
that aligning meta-prediction with true rollouts will lead to significant
performance gains. To verify this hypothesis, we design a training pipeline
that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced
meta-awareness directly translates to improved accuracy. Unlike existing
meta-cognitive reasoning models, our method does not require external training
sources but leverages self-generated signals to train meta-awareness. Moreover,
our method enables efficient training by i) filtering out zero-variance prompts
that are either trivial or unsolvable and ii) cutting off lengthy rollouts when
they are unlikely to lead to correct answers. The results are inspiring: our
strategy yields significant improvements in both accuracy and training
efficiency on in-domain tasks and shows strong generalization to out-of-domain
benchmarks. More specifically, our method can speed up GRPO training by over
1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on
AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with
meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 %
boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks
spanning logical, scientific, and coding domains.