ChatPaper.aiChatPaper

Correzione auto-premiante per il ragionamento matematico

Self-rewarding correction for mathematical reasoning

February 26, 2025
Autori: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI

Abstract

Studiamo i grandi modelli linguistici (LLM) con ragionamento auto-premiante, che possono generare simultaneamente ragionamenti passo-passo e valutare la correttezza dei loro output durante il tempo di inferenza, senza feedback esterno. Questo approccio integrato consente a un singolo modello di guidare in modo indipendente il proprio processo di ragionamento, offrendo vantaggi computazionali per il deployment del modello. Ci concentriamo in particolare sul compito rappresentativo dell'auto-correzione, in cui i modelli rilevano autonomamente errori nelle loro risposte, revisionano gli output e decidono quando terminare i cicli iterativi di affinamento. Per abilitare ciò, proponiamo un framework algoritmico a due fasi per costruire modelli di ragionamento auto-premianti utilizzando esclusivamente dati auto-generati. Nella prima fase, utilizziamo il campionamento sequenziale per rifiuto per sintetizzare lunghe traiettorie di catena di pensiero che incorporano meccanismi di auto-premiazione e auto-correzione. Il fine-tuning dei modelli su questi dati curati consente loro di apprendere i pattern di auto-premiazione e auto-correzione. Nella seconda fase, miglioriamo ulteriormente la capacità dei modelli di valutare l'accuratezza delle risposte e affinare gli output attraverso l'apprendimento per rinforzo con segnali basati su regole. Esperimenti condotti con Llama-3 e Qwen-2.5 dimostrano che il nostro approccio supera le capacità intrinseche di auto-correzione e raggiunge prestazioni comparabili a sistemi che si basano su modelli di ricompensa esterni.
English
We study self-rewarding reasoning large language models (LLMs), which can simultaneously generate step-by-step reasoning and evaluate the correctness of their outputs during the inference time-without external feedback. This integrated approach allows a single model to independently guide its reasoning process, offering computational advantages for model deployment. We particularly focus on the representative task of self-correction, where models autonomously detect errors in their responses, revise outputs, and decide when to terminate iterative refinement loops. To enable this, we propose a two-staged algorithmic framework for constructing self-rewarding reasoning models using only self-generated data. In the first stage, we employ sequential rejection sampling to synthesize long chain-of-thought trajectories that incorporate both self-rewarding and self-correction mechanisms. Fine-tuning models on these curated data allows them to learn the patterns of self-rewarding and self-correction. In the second stage, we further enhance the models' ability to assess response accuracy and refine outputs through reinforcement learning with rule-based signals. Experiments with Llama-3 and Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction capabilities and achieves performance comparable to systems that rely on external reward models.

Summary

AI-Generated Summary

PDF846February 28, 2025