ChatPaper.aiChatPaper

Das Web umformulieren: Ein Rezept für rechen- und dateneffizientes Sprachmodellieren

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

January 29, 2024
Autoren: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI

Zusammenfassung

Große Sprachmodelle werden mit umfangreichen Datensätzen aus dem Web trainiert, die oft unstrukturiert, verrauscht und schlecht formuliert sind. Aktuelle Skalierungsgesetze zeigen, dass das Lernen aus solchen Daten einen Überfluss an Rechenleistung und Daten erfordert, der mit der Größe des zu trainierenden Modells wächst. Dies ist sowohl aufgrund der hohen Rechenkosten und der langen Dauer des Pre-Trainings als auch aufgrund der bevorstehenden Knappheit hochwertiger Daten im Web nicht praktikabel. In dieser Arbeit schlagen wir Web Rephrase Augmented Pre-training (WRAP) vor, das ein vorgefertigtes, instruktionsgesteuertes Modell verwendet, um Dokumente im Web in bestimmten Stilen wie „wie Wikipedia“ oder im „Frage-Antwort-Format“ umzuformulieren, um LLMs gemeinsam auf echten und synthetischen Umformulierungen zu trainieren. Zunächst zeigen wir, dass die Verwendung von WRAP auf dem C4-Datensatz, der von Natur aus verrauscht ist, das Pre-Training um das Dreifache beschleunigt. Bei gleichem Rechenbudget für das Pre-Training verbessert es die Perplexität im Durchschnitt um mehr als 10 % über verschiedene Teilmengen des Pile-Datensatzes hinweg und steigert die Genauigkeit bei Zero-Shot-Frage-Antwort-Aufgaben über 13 Aufgaben hinweg um mehr als 2 %. Zweitens untersuchen wir die Auswirkungen des Umformulierungsstils auf die Leistung des Modells und bieten Einblicke, wie die Zusammensetzung der Trainingsdaten die Leistung von LLMs in Out-of-Distribution-Szenarien beeinflussen kann. Unsere Gewinne werden darauf zurückgeführt, dass umformulierte synthetische Daten einen höheren Nutzen haben als nur echte Daten, da sie (i) Stilvielfalt einbeziehen, die den Stil der nachgelagerten Bewertung eng widerspiegelt, und (ii) eine höhere „Qualität“ als aus dem Web gescrapte Daten aufweisen.
English
Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training (WRAP) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by sim3x. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
PDF507December 15, 2024