Het vaststellen van schaalwetten voor taken via reken-efficiënte modeltrappen.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders
December 5, 2024
Auteurs: Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi
cs.AI
Samenvatting
We ontwikkelen schaalwetten voor taken en modelleren ladders om de individuele taakprestaties van vooraf getrainde taalmodellen (LM's) te voorspellen in de overgetrainde setting. Standaard machtsregels voor verlies bij taalmodellering kunnen taakprestaties niet nauwkeurig modelleren. Daarom maken we gebruik van een tweestaps voorspellingsbenadering: eerst gebruiken we model- en gegevensgrootte om een taakspecifiek verlies te voorspellen, en vervolgens gebruiken we dit taakverlies om de taakprestatie te voorspellen. We trainen een reeks kleinschalige "ladder" modellen, verzamelen gegevenspunten om de geparametriseerde functies van de twee voorspellingsstappen aan te passen, en maken voorspellingen voor twee doelmodellen: een 7B-model getraind op 4T tokens en een 13B-model getraind op 5T tokens. Het trainen van de laddermodellen kost slechts 1% van de berekening die wordt gebruikt voor de doelmodellen. Op vier meerkeuzetaken geschreven in gerangschikte classificatie-indeling, kunnen we de nauwkeurigheid van beide doelmodellen voorspellen binnen 2 punten absolute fout. We hebben een hogere voorspellingsfout op vier andere taken (gemiddelde absolute fout 6.9) en vinden dat dit vaak taken zijn met een hogere variabiliteit in taakmetrieken. We vinden ook dat het gebruik van minder berekening om minder laddermodellen te trainen de voorspellingen meestal verslechtert. Ten slotte tonen we empirisch aan dat onze ontwerpkeuzes en de tweestapsbenadering leiden tot superieure prestaties bij het vaststellen van schaalwetten.
English
We develop task scaling laws and model ladders to predict the individual task
performance of pretrained language models (LMs) in the overtrained setting.
Standard power laws for language modeling loss cannot accurately model task
performance. Therefore, we leverage a two-step prediction approach: first use
model and data size to predict a task-specific loss, and then use this task
loss to predict task performance. We train a set of small-scale "ladder"
models, collect data points to fit the parameterized functions of the two
prediction steps, and make predictions for two target models: a 7B model
trained to 4T tokens and a 13B model trained to 5T tokens. Training the ladder
models only costs 1% of the compute used for the target models. On four
multiple-choice tasks written in ranked classification format, we can predict
the accuracy of both target models within 2 points of absolute error. We have
higher prediction error on four other tasks (average absolute error 6.9) and
find that these are often tasks with higher variance in task metrics. We also
find that using less compute to train fewer ladder models tends to deteriorate
predictions. Finally, we empirically show that our design choices and the
two-step approach lead to superior performance in establishing scaling laws.