S^2R: Ensinando LLMs a Auto-verificar e Auto-corrigir por meio de Aprendizado por Reforço
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning
February 18, 2025
Autores: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI
Resumo
Estudos recentes demonstraram a eficácia do escalonamento de LLMs (Large Language Models) durante o teste. No entanto, as abordagens existentes para incentivar as habilidades de pensamento profundo dos LLMs geralmente exigem dados em grande escala ou esforços significativos de treinamento. Enquanto isso, ainda não está claro como melhorar as habilidades de pensamento de modelos base menos poderosos. Neste trabalho, apresentamos o S^2R, um framework eficiente que aprimora o raciocínio dos LLMs ao ensinar os modelos a se auto-verificar e se auto-corrigir durante a inferência. Especificamente, primeiro inicializamos os LLMs com comportamentos iterativos de auto-verificação e auto-correção por meio de ajuste fino supervisionado em dados cuidadosamente selecionados. As habilidades de auto-verificação e auto-correção são então ainda mais fortalecidas por meio de aprendizado por reforço tanto no nível de resultado quanto no nível de processo, com requisitos de recursos minimizados, permitindo que o modelo refine adaptativamente seu processo de raciocínio durante a inferência. Nossos resultados demonstram que, com apenas 3.1 mil amostras de inicialização de comportamentos de auto-verificação e auto-correção, o Qwen2.5-math-7B alcança uma melhoria de precisão de 51,0% para 81,6%, superando modelos treinados com uma quantidade equivalente de dados destilados de long-CoT. Experimentos extensivos e análises baseadas em três modelos base, tanto em benchmarks dentro do domínio quanto fora dele, validam a eficácia do S^2R. Nosso código e dados estão disponíveis em https://github.com/NineAbyss/S2R.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling.
However, existing approaches to incentivize LLMs' deep thinking abilities
generally require large-scale data or significant training efforts. Meanwhile,
it remains unclear how to improve the thinking abilities of less powerful base
models. In this work, we introduce S^2R, an efficient framework that enhances
LLM reasoning by teaching models to self-verify and self-correct during
inference. Specifically, we first initialize LLMs with iterative
self-verification and self-correction behaviors through supervised fine-tuning
on carefully curated data. The self-verification and self-correction skills are
then further strengthened by both outcome-level and process-level reinforcement
learning, with minimized resource requirements, enabling the model to
adaptively refine its reasoning process during inference. Our results
demonstrate that, with only 3.1k self-verifying and self-correcting behavior
initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from
51.0\% to 81.6\%, outperforming models trained on an equivalent amount of
long-CoT distilled data. Extensive experiments and analysis based on three base
models across both in-domain and out-of-domain benchmarks validate the
effectiveness of S^2R. Our code and data are available at
https://github.com/NineAbyss/S2R.Summary
AI-Generated Summary