S^2R: Enseñando a los LLM a auto-verificarse y auto-corregirse mediante Aprendizaje por Refuerzo
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning
February 18, 2025
Autores: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI
Resumen
Estudios recientes han demostrado la efectividad del escalado en tiempo de prueba de los LLM. Sin embargo, los enfoques existentes para incentivar las habilidades de pensamiento profundo de los LLM generalmente requieren datos a gran escala o esfuerzos significativos de entrenamiento. Mientras tanto, sigue sin estar claro cómo mejorar las habilidades de pensamiento de modelos base menos potentes. En este trabajo, presentamos S^2R, un marco eficiente que mejora el razonamiento de los LLM al enseñar a los modelos a autoverificarse y autocorregirse durante la inferencia. Específicamente, primero inicializamos los LLM con comportamientos de autoverificación y autocorrección iterativos mediante ajuste fino supervisado en datos cuidadosamente seleccionados. Las habilidades de autoverificación y autocorrección se fortalecen aún más mediante el aprendizaje por refuerzo tanto a nivel de resultados como de procesos, con requisitos de recursos minimizados, lo que permite al modelo refinar de manera adaptativa su proceso de razonamiento durante la inferencia. Nuestros resultados demuestran que, con solo 3.1k muestras de inicialización de comportamientos de autoverificación y autocorrección, Qwen2.5-math-7B logra una mejora en la precisión del 51.0\% al 81.6\%, superando a los modelos entrenados con una cantidad equivalente de datos destilados de CoT largo. Experimentos extensos y análisis basados en tres modelos base en puntos de referencia tanto dentro como fuera del dominio validan la efectividad de S^2R. Nuestro código y datos están disponibles en https://github.com/NineAbyss/S2R.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling.
However, existing approaches to incentivize LLMs' deep thinking abilities
generally require large-scale data or significant training efforts. Meanwhile,
it remains unclear how to improve the thinking abilities of less powerful base
models. In this work, we introduce S^2R, an efficient framework that enhances
LLM reasoning by teaching models to self-verify and self-correct during
inference. Specifically, we first initialize LLMs with iterative
self-verification and self-correction behaviors through supervised fine-tuning
on carefully curated data. The self-verification and self-correction skills are
then further strengthened by both outcome-level and process-level reinforcement
learning, with minimized resource requirements, enabling the model to
adaptively refine its reasoning process during inference. Our results
demonstrate that, with only 3.1k self-verifying and self-correcting behavior
initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from
51.0\% to 81.6\%, outperforming models trained on an equivalent amount of
long-CoT distilled data. Extensive experiments and analysis based on three base
models across both in-domain and out-of-domain benchmarks validate the
effectiveness of S^2R. Our code and data are available at
https://github.com/NineAbyss/S2R.Summary
AI-Generated Summary