Physik von Sprachmodellen: Teil 2.2, Wie man aus Fehlern bei Grundschulmathematikaufgaben lernt
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems
August 29, 2024
papers.authors: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI
papers.abstract
Sprachmodelle haben bemerkenswerte Leistungen bei der Lösung von Denkaufgaben gezeigt; jedoch machen selbst die stärksten Modelle gelegentlich noch Denkfehler. In jüngster Zeit gab es aktive Forschung, die darauf abzielt, die Genauigkeit des Denkens zu verbessern, insbesondere durch den Einsatz von vortrainierten Sprachmodellen, die ihre Fehler über mehrstufige Aufforderungen „selbst korrigieren“. In diesem Beitrag folgen wir dieser Forschungsrichtung, konzentrieren uns jedoch darauf, den Nutzen der direkten Einbindung von „Fehlerkorrektur“-Daten in die Vortrainingsphase zu untersuchen. Diese Daten bestehen aus fehlerhaften Lösungsschritten, denen unmittelbar ihre Korrekturen folgen. Anhand eines synthetischen Mathematikdatensatzes zeigen wir vielversprechende Ergebnisse: Diese Art von Vortrainingsdaten kann Sprachmodellen helfen, eine höhere Denkgenauigkeit direkt (d. h. durch einfache Autoregression, ohne mehrstufige Aufforderungen) zu erreichen, verglichen mit dem Vortraining auf der gleichen Menge fehlerfreier Daten. Wir gehen auch auf viele Details ein, wie (1) wie sich dieser Ansatz von der Strahlensuche unterscheidet, (2) wie solche Daten vorbereitet werden können, (3) ob eine Maskierung der fehlerhaften Tokens erforderlich ist, (4) die Menge der benötigten Fehler, (5) ob solche Daten auf die Feinabstimmungsphase verschoben werden können, und viele andere.
English
Language models have demonstrated remarkable performance in solving reasoning
tasks; however, even the strongest models still occasionally make reasoning
mistakes. Recently, there has been active research aimed at improving reasoning
accuracy, particularly by using pretrained language models to "self-correct"
their mistakes via multi-round prompting. In this paper, we follow this line of
work but focus on understanding the usefulness of incorporating
"error-correction" data directly into the pretraining stage. This data consists
of erroneous solution steps immediately followed by their corrections. Using a
synthetic math dataset, we show promising results: this type of pretrain data
can help language models achieve higher reasoning accuracy directly (i.e.,
through simple auto-regression, without multi-round prompting) compared to
pretraining on the same amount of error-free data. We also delve into many
details, such as (1) how this approach differs from beam search, (2) how such
data can be prepared, (3) whether masking is needed on the erroneous tokens,
(4) the amount of error required, (5) whether such data can be deferred to the
fine-tuning stage, and many others.