ChatPaper.aiChatPaper

Zelfbelonende correctie voor wiskundige redenering

Self-rewarding correction for mathematical reasoning

February 26, 2025
Auteurs: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI

Samenvatting

We bestuderen zelfbelonende redenerende grote taalmodellen (LLM's), die tegelijkertijd stapsgewijze redenering kunnen genereren en de juistheid van hun uitvoer kunnen evalueren tijdens de inferentietijd - zonder externe feedback. Deze geïntegreerde aanpak stelt een enkel model in staat om zelfstandig zijn redeneerproces te sturen, wat computationele voordelen biedt voor modelimplementatie. We richten ons in het bijzonder op de representatieve taak van zelfcorrectie, waar modellen autonoom fouten in hun antwoorden detecteren, uitvoer herzien en beslissen wanneer iteratieve verfijningslussen moeten worden beëindigd. Om dit mogelijk te maken, stellen we een tweestaps algoritmisch kader voor om zelfbelonende redenerende modellen te construeren met behulp van alleen zelf gegenereerde gegevens. In de eerste fase maken we gebruik van sequentiële verwerpingssampling om lange denktrajecten te synthetiseren die zowel zelfbelonende als zelfcorrectiemechanismen bevatten. Het fine-tunen van modellen op deze samengestelde gegevens stelt hen in staat om de patronen van zelfbeloning en zelfcorrectie te leren. In de tweede fase verbeteren we verder het vermogen van de modellen om de nauwkeurigheid van de respons te beoordelen en de uitvoer te verfijnen door middel van reinforcement learning met op regels gebaseerde signalen. Experimenten met Llama-3 en Qwen-2.5 tonen aan dat onze benadering intrinsieke zelfcorrectiemogelijkheden overtreft en prestaties behaalt die vergelijkbaar zijn met systemen die vertrouwen op externe beloningsmodellen.
English
We study self-rewarding reasoning large language models (LLMs), which can simultaneously generate step-by-step reasoning and evaluate the correctness of their outputs during the inference time-without external feedback. This integrated approach allows a single model to independently guide its reasoning process, offering computational advantages for model deployment. We particularly focus on the representative task of self-correction, where models autonomously detect errors in their responses, revise outputs, and decide when to terminate iterative refinement loops. To enable this, we propose a two-staged algorithmic framework for constructing self-rewarding reasoning models using only self-generated data. In the first stage, we employ sequential rejection sampling to synthesize long chain-of-thought trajectories that incorporate both self-rewarding and self-correction mechanisms. Fine-tuning models on these curated data allows them to learn the patterns of self-rewarding and self-correction. In the second stage, we further enhance the models' ability to assess response accuracy and refine outputs through reinforcement learning with rule-based signals. Experiments with Llama-3 and Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction capabilities and achieves performance comparable to systems that rely on external reward models.

Summary

AI-Generated Summary

PDF846February 28, 2025