Corrección autorrecompensante para el razonamiento matemático
Self-rewarding correction for mathematical reasoning
February 26, 2025
Autores: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
Resumen
Estudiamos modelos de lenguaje de gran escala (LLMs) con razonamiento autorrecompensado, los cuales pueden generar simultáneamente razonamientos paso a paso y evaluar la corrección de sus salidas durante el tiempo de inferencia, sin retroalimentación externa. Este enfoque integrado permite que un solo modelo guíe de manera independiente su proceso de razonamiento, ofreciendo ventajas computacionales para el despliegue de modelos. Nos enfocamos particularmente en la tarea representativa de la autocorrección, donde los modelos detectan errores en sus respuestas de forma autónoma, revisan las salidas y deciden cuándo terminar los bucles de refinamiento iterativo. Para lograr esto, proponemos un marco algorítmico de dos etapas para construir modelos de razonamiento autorrecompensado utilizando únicamente datos autogenerados. En la primera etapa, empleamos muestreo secuencial por rechazo para sintetizar trayectorias largas de cadena de pensamiento que incorporan mecanismos de autorrecompensa y autocorrección. El ajuste fino de los modelos con estos datos seleccionados les permite aprender los patrones de autorrecompensa y autocorrección. En la segunda etapa, mejoramos aún más la capacidad de los modelos para evaluar la precisión de las respuestas y refinar las salidas mediante aprendizaje por refuerzo con señales basadas en reglas. Experimentos con Llama-3 y Qwen-2.5 demuestran que nuestro enfoque supera las capacidades intrínsecas de autocorrección y logra un rendimiento comparable a sistemas que dependen de modelos de recompensa externos.
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary