Zelfbelonende correctie voor wiskundige redeneringSelf-rewarding correction for mathematical reasoning
We bestuderen zelfbelonende redenerende grote taalmodellen (LLM's), die tegelijkertijd stapsgewijze redenering kunnen genereren en de juistheid van hun uitvoer kunnen evalueren tijdens de inferentietijd - zonder externe feedback. Deze geïntegreerde aanpak stelt een enkel model in staat om zelfstandig zijn redeneerproces te sturen, wat computationele voordelen biedt voor modelimplementatie. We richten ons in het bijzonder op de representatieve taak van zelfcorrectie, waar modellen autonoom fouten in hun antwoorden detecteren, uitvoer herzien en beslissen wanneer iteratieve verfijningslussen moeten worden beëindigd. Om dit mogelijk te maken, stellen we een tweestaps algoritmisch kader voor om zelfbelonende redenerende modellen te construeren met behulp van alleen zelf gegenereerde gegevens. In de eerste fase maken we gebruik van sequentiële verwerpingssampling om lange denktrajecten te synthetiseren die zowel zelfbelonende als zelfcorrectiemechanismen bevatten. Het fine-tunen van modellen op deze samengestelde gegevens stelt hen in staat om de patronen van zelfbeloning en zelfcorrectie te leren. In de tweede fase verbeteren we verder het vermogen van de modellen om de nauwkeurigheid van de respons te beoordelen en de uitvoer te verfijnen door middel van reinforcement learning met op regels gebaseerde signalen. Experimenten met Llama-3 en Qwen-2.5 tonen aan dat onze benadering intrinsieke zelfcorrectiemogelijkheden overtreft en prestaties behaalt die vergelijkbaar zijn met systemen die vertrouwen op externe beloningsmodellen.