ChatPaper.aiChatPaper

Fisica dei Modelli Linguistici: Parte 2.2, Come Imparare dagli Errori sui Problemi di Matematica della Scuola Elementare

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

August 29, 2024
Autori: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI

Abstract

I modelli linguistici hanno dimostrato prestazioni notevoli nella risoluzione di compiti di ragionamento; tuttavia, anche i modelli più potenti commettono ancora occasionalmente errori di ragionamento. Recentemente, si è assistito a una vivace attività di ricerca finalizzata a migliorare l'accuratezza del ragionamento, in particolare utilizzando modelli linguistici preaddestrati per "auto-correggere" i propri errori tramite prompt multipli. In questo articolo, seguiamo questa linea di ricerca ma ci concentriamo sulla comprensione dell'utilità di incorporare direttamente nella fase di preaddestramento dati di "correzione degli errori". Questi dati consistono in passaggi di soluzione errati immediatamente seguiti dalle relative correzioni. Utilizzando un dataset matematico sintetico, mostriamo risultati promettenti: questo tipo di dati di preaddestramento può aiutare i modelli linguistici a raggiungere una maggiore accuratezza di ragionamento in modo diretto (ovvero, attraverso una semplice auto-regressione, senza prompt multipli) rispetto all'addestramento sulla stessa quantità di dati privi di errori. Approfondiamo inoltre molti dettagli, come (1) in che modo questo approccio differisce dalla beam search, (2) come tali dati possano essere preparati, (3) se sia necessario mascherare i token errati, (4) la quantità di errori richiesta, (5) se questi dati possano essere rimandati alla fase di fine-tuning, e molti altri.
English
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
PDF272November 14, 2024