Het vaststellen van schaalwetten voor taken via reken-efficiënte modeltrappen.

Samenvatting

We ontwikkelen schaalwetten voor taken en modelleren ladders om de individuele taakprestaties van vooraf getrainde taalmodellen (LM's) te voorspellen in de overgetrainde setting. Standaard machtsregels voor verlies bij taalmodellering kunnen taakprestaties niet nauwkeurig modelleren. Daarom maken we gebruik van een tweestaps voorspellingsbenadering: eerst gebruiken we model- en gegevensgrootte om een taakspecifiek verlies te voorspellen, en vervolgens gebruiken we dit taakverlies om de taakprestatie te voorspellen. We trainen een reeks kleinschalige "ladder" modellen, verzamelen gegevenspunten om de geparametriseerde functies van de twee voorspellingsstappen aan te passen, en maken voorspellingen voor twee doelmodellen: een 7B-model getraind op 4T tokens en een 13B-model getraind op 5T tokens. Het trainen van de laddermodellen kost slechts 1% van de berekening die wordt gebruikt voor de doelmodellen. Op vier meerkeuzetaken geschreven in gerangschikte classificatie-indeling, kunnen we de nauwkeurigheid van beide doelmodellen voorspellen binnen 2 punten absolute fout. We hebben een hogere voorspellingsfout op vier andere taken (gemiddelde absolute fout 6.9) en vinden dat dit vaak taken zijn met een hogere variabiliteit in taakmetrieken. We vinden ook dat het gebruik van minder berekening om minder laddermodellen te trainen de voorspellingen meestal verslechtert. Ten slotte tonen we empirisch aan dat onze ontwerpkeuzes en de tweestapsbenadering leiden tot superieure prestaties bij het vaststellen van schaalwetten.

English

We develop task scaling laws and model ladders to predict the individual task performance of pretrained language models (LMs) in the overtrained setting. Standard power laws for language modeling loss cannot accurately model task performance. Therefore, we leverage a two-step prediction approach: first use model and data size to predict a task-specific loss, and then use this task loss to predict task performance. We train a set of small-scale "ladder" models, collect data points to fit the parameterized functions of the two prediction steps, and make predictions for two target models: a 7B model trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder models only costs 1% of the compute used for the target models. On four multiple-choice tasks written in ranked classification format, we can predict the accuracy of both target models within 2 points of absolute error. We have higher prediction error on four other tasks (average absolute error 6.9) and find that these are often tasks with higher variance in task metrics. We also find that using less compute to train fewer ladder models tends to deteriorate predictions. Finally, we empirically show that our design choices and the two-step approach lead to superior performance in establishing scaling laws.

Het vaststellen van schaalwetten voor taken via reken-efficiënte modeltrappen.

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Samenvatting

Support