Vorabtraining von kleinen Basissprachmodellen mit weniger Tokens.

papers.abstract

Wir untersuchen die Wirksamkeit eines einfachen Ansatzes zur Entwicklung eines kleinen Basissprachmodells (LM) ausgehend von einem bestehenden großen Basissprachmodell: Zunächst erben wir einige Transformer-Blöcke vom größeren LM und trainieren dann dieses kleinere Modell auf einem sehr kleinen Teil (0,1 %) der Rohdaten des größeren Modells. Wir nennen unser einfaches Rezept "Inheritune" und demonstrieren es zunächst für den Aufbau eines kleinen Basissprachmodells mit 1,5 Milliarden Parametern unter Verwendung von 1 Milliarde Tokens (und einigen anfänglichen Schichten des größeren LM mit 3 Milliarden Parametern); dies geschieht unter Verwendung einer einzelnen A6000 GPU für weniger als einen halben Tag. Über 9 verschiedene Evaluierungsdatensätze sowie den MMLU-Benchmark hinweg schneidet das resultierende Modell im Vergleich zu öffentlich verfügbaren Basismodellen der Größe 1-2 Milliarden günstig ab, von denen einige mit 50-1000-mal mehr Tokens trainiert wurden. Wir untersuchen Inheritune in einer etwas anderen Konfiguration, bei der wir kleine LMs unter Verwendung größerer LMs und deren vollständigem Vortrainingsdatensatz trainieren. Hier zeigen wir, dass kleinere LMs, die einige der Schichten von GPT2-medium (355M) und GPT-2-large (770M) nutzen, effektiv den Val-Verlust ihrer größeren Gegenstücke erreichen können, wenn sie für die gleiche Anzahl von Trainingsschritten auf dem OpenWebText-Datensatz mit 9 Milliarden Tokens von Grund auf trainiert werden. Wir analysieren unser Rezept mit umfangreichen Experimenten und zeigen seine Wirksamkeit in verschiedenen Konfigurationen. Unser Code ist verfügbar unter https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Vorabtraining von kleinen Basissprachmodellen mit weniger Tokens.

Pre-training Small Base LMs with Fewer Tokens

papers.abstract

Support