Correção auto-recompensadora para raciocínio matemático
Self-rewarding correction for mathematical reasoning
February 26, 2025
Autores: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
Resumo
Estudamos modelos de linguagem grandes (LLMs) de raciocínio auto-recompensador, que podem gerar passo a passo o raciocínio e avaliar a correção de suas saídas durante o tempo de inferência - sem feedback externo. Esta abordagem integrada permite que um único modelo guie independentemente seu processo de raciocínio, oferecendo vantagens computacionais para a implantação do modelo. Focamos particularmente na tarefa representativa de auto-correção, onde os modelos detectam autonomamente erros em suas respostas, revisam as saídas e decidem quando encerrar os loops de refinamento iterativo. Para viabilizar isso, propomos um framework algorítmico em duas etapas para a construção de modelos de raciocínio auto-recompensador usando apenas dados auto-gerados. Na primeira etapa, empregamos amostragem sequencial de rejeição para sintetizar longas trajetórias de encadeamento de pensamento que incorporam tanto mecanismos de auto-recompensa quanto de auto-correção. O ajuste fino dos modelos a esses dados curados permite que aprendam os padrões de auto-recompensa e auto-correção. Na segunda etapa, aprimoramos ainda mais a capacidade dos modelos de avaliar a precisão da resposta e refinar as saídas por meio de aprendizado por reforço com sinais baseados em regras. Experimentos com Llama-3 e Qwen-2.5 demonstram que nossa abordagem supera as capacidades intrínsecas de auto-correção e alcança desempenho comparável a sistemas que dependem de modelos de recompensa externos.
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary