Skalierung von abrufbasierten Sprachmodellen mit einem Datenspeicher von einer Billion Tokens
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore
July 9, 2024
Autoren: Rulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh
cs.AI
Zusammenfassung
Skalierungsgesetze in Bezug auf die Menge der Trainingsdaten und die Anzahl der Parameter ermöglichen es uns, die Kosten-Nutzen-Abwägungen beim Vortrainieren von Sprachmodellen (LMs) in verschiedenen Konfigurationen vorherzusagen. In diesem Papier betrachten wir eine weitere Dimension der Skalierung: die Menge der verfügbaren Daten zur Inferenzzeit. Insbesondere stellen wir fest, dass die Erhöhung der Größe des von einem abrufbasierten LM verwendeten Datenspeichers die Sprachmodellierung und mehrere nachgelagerte Aufgaben monoton verbessert, ohne offensichtliche Sättigung, sodass ein kleineres Modell, das mit einem großen Datenspeicher ergänzt wird, ein größeres LM-Modell nur für wissensintensive Aufgaben übertrifft. Durch das Erstellen von rechenoptimalen Skalierungskurven mit variierenden Datenspeicher-, Modell- und Vortrainingsdatengrößen zeigen wir, dass die Verwendung größerer Datenspeicher die Modellleistung bei gleichem Trainingsrechenaufwand erheblich verbessern kann. Wir führen unsere Studie durch, indem wir einen 1,4 Billionen Token umfassenden Datenspeicher namens MassiveDS konstruieren, der der bisher größte und vielfältigste Open-Source-Datenspeicher für abrufbasierte LMs ist, und eine effiziente Pipeline zur Untersuchung der Datenspeicher-Skalierung auf eine rechnerisch zugängliche Weise entwerfen. Schließlich analysieren wir die Auswirkungen der Verbesserung des Retrievers, der Datenspeicherqualitätsfilterung und anderer Designentscheidungen auf unsere beobachteten Skalierungstrends. Insgesamt zeigen unsere Ergebnisse, dass die Größe des Datenspeichers als integraler Bestandteil der Effizienz und Leistungsabwägungen von LMs betrachtet werden sollte. Um zukünftige Forschung zu erleichtern, stellen wir unseren Datenspeicher und Code unter https://github.com/RulinShao/retrieval-scaling als Open Source zur Verfügung.
English
Scaling laws with respect to the amount of training data and the number of
parameters allow us to predict the cost-benefit trade-offs of pretraining
language models (LMs) in different configurations. In this paper, we consider
another dimension of scaling: the amount of data available at inference time.
Specifically, we find that increasing the size of the datastore used by a
retrieval-based LM monotonically improves language modeling and several
downstream tasks without obvious saturation, such that a smaller model
augmented with a large datastore outperforms a larger LM-only model on
knowledge-intensive tasks. By plotting compute-optimal scaling curves with
varied datastore, model, and pretraining data sizes, we show that using larger
datastores can significantly improve model performance for the same training
compute budget. We carry out our study by constructing a 1.4 trillion-token
datastore named MassiveDS, which is the largest and the most diverse
open-sourced datastore for retrieval-based LMs to date, and designing an
efficient pipeline for studying datastore scaling in a computationally
accessible manner. Finally, we analyze the effect of improving the retriever,
datastore quality filtering, and other design choices on our observed scaling
trends. Overall, our results show that datastore size should be considered as
an integral part of LM efficiency and performance trade-offs. To facilitate
future research, we open-source our datastore and code at
https://github.com/RulinShao/retrieval-scaling.Summary
AI-Generated Summary