Skalierung von abrufbasierten Sprachmodellen mit einem Datenspeicher von einer Billion Tokens

papers.abstract

Skalierungsgesetze in Bezug auf die Menge der Trainingsdaten und die Anzahl der Parameter ermöglichen es uns, die Kosten-Nutzen-Abwägungen beim Vortrainieren von Sprachmodellen (LMs) in verschiedenen Konfigurationen vorherzusagen. In diesem Papier betrachten wir eine weitere Dimension der Skalierung: die Menge der verfügbaren Daten zur Inferenzzeit. Insbesondere stellen wir fest, dass die Erhöhung der Größe des von einem abrufbasierten LM verwendeten Datenspeichers die Sprachmodellierung und mehrere nachgelagerte Aufgaben monoton verbessert, ohne offensichtliche Sättigung, sodass ein kleineres Modell, das mit einem großen Datenspeicher ergänzt wird, ein größeres LM-Modell nur für wissensintensive Aufgaben übertrifft. Durch das Erstellen von rechenoptimalen Skalierungskurven mit variierenden Datenspeicher-, Modell- und Vortrainingsdatengrößen zeigen wir, dass die Verwendung größerer Datenspeicher die Modellleistung bei gleichem Trainingsrechenaufwand erheblich verbessern kann. Wir führen unsere Studie durch, indem wir einen 1,4 Billionen Token umfassenden Datenspeicher namens MassiveDS konstruieren, der der bisher größte und vielfältigste Open-Source-Datenspeicher für abrufbasierte LMs ist, und eine effiziente Pipeline zur Untersuchung der Datenspeicher-Skalierung auf eine rechnerisch zugängliche Weise entwerfen. Schließlich analysieren wir die Auswirkungen der Verbesserung des Retrievers, der Datenspeicherqualitätsfilterung und anderer Designentscheidungen auf unsere beobachteten Skalierungstrends. Insgesamt zeigen unsere Ergebnisse, dass die Größe des Datenspeichers als integraler Bestandteil der Effizienz und Leistungsabwägungen von LMs betrachtet werden sollte. Um zukünftige Forschung zu erleichtern, stellen wir unseren Datenspeicher und Code unter https://github.com/RulinShao/retrieval-scaling als Open Source zur Verfügung.

English

Scaling laws with respect to the amount of training data and the number of parameters allow us to predict the cost-benefit trade-offs of pretraining language models (LMs) in different configurations. In this paper, we consider another dimension of scaling: the amount of data available at inference time. Specifically, we find that increasing the size of the datastore used by a retrieval-based LM monotonically improves language modeling and several downstream tasks without obvious saturation, such that a smaller model augmented with a large datastore outperforms a larger LM-only model on knowledge-intensive tasks. By plotting compute-optimal scaling curves with varied datastore, model, and pretraining data sizes, we show that using larger datastores can significantly improve model performance for the same training compute budget. We carry out our study by constructing a 1.4 trillion-token datastore named MassiveDS, which is the largest and the most diverse open-sourced datastore for retrieval-based LMs to date, and designing an efficient pipeline for studying datastore scaling in a computationally accessible manner. Finally, we analyze the effect of improving the retriever, datastore quality filtering, and other design choices on our observed scaling trends. Overall, our results show that datastore size should be considered as an integral part of LM efficiency and performance trade-offs. To facilitate future research, we open-source our datastore and code at https://github.com/RulinShao/retrieval-scaling.

Skalierung von abrufbasierten Sprachmodellen mit einem Datenspeicher von einer Billion Tokens

Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

papers.abstract

Support