ChatPaper.aiChatPaper

Natuurkunde van Taalmodellen: Deel 2.2, Hoe te Leren van Fouten op Rekenproblemen voor de Basisschool

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

August 29, 2024
Auteurs: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI

Samenvatting

Taalmodelle hebben opmerkelijke prestaties getoond bij het oplossen van redeneertaken; zelfs de krachtigste modellen maken echter af en toe nog redeneerfouten. Recentelijk is er actief onderzoek gaande om de redeneernauwkeurigheid te verbeteren, met name door voorgetrainde taalmodelle hun fouten te laten "zelf-corrigeren" via multi-round prompting. In dit artikel volgen we deze onderzoekslijn, maar richten we ons op het begrijpen van het nut van het direct integreren van "foutcorrectie"-data in de voorafgaande trainingsfase. Deze data bestaat uit foutieve oplossingsstappen die direct worden gevolgd door hun correcties. Met behulp van een synthetische wiskundedataset tonen we veelbelovende resultaten: dit type voorafgaande trainingsdata kan taalmodelle helpen om direct een hogere redeneernauwkeurigheid te bereiken (d.w.z. via eenvoudige auto-regressie, zonder multi-round prompting) in vergelijking met voorafgaande training op dezelfde hoeveelheid foutloze data. We gaan ook in op vele details, zoals (1) hoe deze aanpak verschilt van beam search, (2) hoe dergelijke data kan worden voorbereid, (3) of maskering nodig is voor de foutieve tokens, (4) de benodigde hoeveelheid fouten, (5) of dergelijke data kan worden uitgesteld naar de fine-tuning fase, en vele andere.
English
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
PDF272November 14, 2024