Correção auto-recompensadora para raciocínio matemáticoSelf-rewarding correction for mathematical reasoning
Estudamos modelos de linguagem grandes (LLMs) de raciocínio auto-recompensador, que podem gerar passo a passo o raciocínio e avaliar a correção de suas saídas durante o tempo de inferência - sem feedback externo. Esta abordagem integrada permite que um único modelo guie independentemente seu processo de raciocínio, oferecendo vantagens computacionais para a implantação do modelo. Focamos particularmente na tarefa representativa de auto-correção, onde os modelos detectam autonomamente erros em suas respostas, revisam as saídas e decidem quando encerrar os loops de refinamento iterativo. Para viabilizar isso, propomos um framework algorítmico em duas etapas para a construção de modelos de raciocínio auto-recompensador usando apenas dados auto-gerados. Na primeira etapa, empregamos amostragem sequencial de rejeição para sintetizar longas trajetórias de encadeamento de pensamento que incorporam tanto mecanismos de auto-recompensa quanto de auto-correção. O ajuste fino dos modelos a esses dados curados permite que aprendam os padrões de auto-recompensa e auto-correção. Na segunda etapa, aprimoramos ainda mais a capacidade dos modelos de avaliar a precisão da resposta e refinar as saídas por meio de aprendizado por reforço com sinais baseados em regras. Experimentos com Llama-3 e Qwen-2.5 demonstram que nossa abordagem supera as capacidades intrínsecas de auto-correção e alcança desempenho comparável a sistemas que dependem de modelos de recompensa externos.