Physique des modèles linguistiques : Partie 2.2, Comment apprendre de ses erreurs sur des problèmes de mathématiques de niveau primaire
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems
August 29, 2024
papers.authors: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI
papers.abstract
Les modèles de langage ont démontré des performances remarquables dans la résolution de tâches de raisonnement ; cependant, même les modèles les plus performants commettent encore occasionnellement des erreurs de raisonnement. Des recherches actives ont récemment émergé pour améliorer la précision du raisonnement, notamment en utilisant des modèles de langage pré-entraînés pour "auto-corriger" leurs erreurs via des sollicitations multi-tours. Dans cet article, nous suivons cette ligne de travail mais nous nous concentrons sur la compréhension de l'utilité d'incorporer directement des données de "correction d'erreurs" dès l'étape de pré-entraînement. Ces données consistent en des étapes de solution erronées, immédiatement suivies de leurs corrections. En utilisant un jeu de données mathématiques synthétiques, nous obtenons des résultats prometteurs : ce type de données de pré-entraînement peut aider les modèles de langage à atteindre une plus grande précision de raisonnement de manière directe (c'est-à-dire par simple auto-régression, sans sollicitation multi-tours) par rapport à un pré-entraînement sur la même quantité de données exemptes d'erreurs. Nous examinons également de nombreux détails, tels que (1) en quoi cette approche diffère de la recherche en faisceau, (2) comment de telles données peuvent être préparées, (3) si un masquage est nécessaire sur les tokens erronés, (4) la quantité d'erreurs requise, (5) si ces données peuvent être reportées à l'étape de fine-tuning, et bien d'autres.
English
Language models have demonstrated remarkable performance in solving reasoning
tasks; however, even the strongest models still occasionally make reasoning
mistakes. Recently, there has been active research aimed at improving reasoning
accuracy, particularly by using pretrained language models to "self-correct"
their mistakes via multi-round prompting. In this paper, we follow this line of
work but focus on understanding the usefulness of incorporating
"error-correction" data directly into the pretraining stage. This data consists
of erroneous solution steps immediately followed by their corrections. Using a
synthetic math dataset, we show promising results: this type of pretrain data
can help language models achieve higher reasoning accuracy directly (i.e.,
through simple auto-regression, without multi-round prompting) compared to
pretraining on the same amount of error-free data. We also delve into many
details, such as (1) how this approach differs from beam search, (2) how such
data can be prepared, (3) whether masking is needed on the erroneous tokens,
(4) the amount of error required, (5) whether such data can be deferred to the
fine-tuning stage, and many others.