Betere en Snellere Grote Taalmodellen via Multi-token Voorspelling
Better & Faster Large Language Models via Multi-token Prediction
April 30, 2024
Auteurs: Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve
cs.AI
Samenvatting
Grote taalmodelen zoals GPT en Llama worden getraind met een next-token voorspellingsverlies. In dit werk suggereren we dat het trainen van taalmodelen om meerdere toekomstige tokens tegelijk te voorspellen resulteert in een hogere sample-efficiëntie. Meer specifiek vragen we het model op elke positie in de trainingscorpus om de volgende n tokens te voorspellen met behulp van n onafhankelijke uitvoerkoppen, die opereren bovenop een gedeelde modelstructuur. Door multi-token voorspelling te beschouwen als een aanvullende trainings taak, meten we verbeterde downstream-capaciteiten zonder overhead in trainings tijd voor zowel code- als natuurlijke taalmodellen. De methode wordt steeds nuttiger voor grotere modelgroottes en behoudt zijn aantrekkingskracht bij het trainen voor meerdere epochs. De winsten zijn vooral duidelijk op generatieve benchmarks zoals coderen, waar onze modellen consistent sterke baselines verslaan met meerdere procentpunten. Onze 13B parameter modellen lossen 12% meer problemen op in HumanEval en 17% meer in MBPP dan vergelijkbare next-token modellen. Experimenten op kleine algoritmische taken tonen aan dat multi-token voorspelling gunstig is voor de ontwikkeling van inductiekoppen en algoritmische redeneervaardigheden. Als een extra voordeel zijn modellen getraind met 4-token voorspelling tot 3 keer sneller tijdens inferentie, zelfs bij grote batchgroottes.
English
Large language models such as GPT and Llama are trained with a next-token
prediction loss. In this work, we suggest that training language models to
predict multiple future tokens at once results in higher sample efficiency.
More specifically, at each position in the training corpus, we ask the model to
predict the following n tokens using n independent output heads, operating on
top of a shared model trunk. Considering multi-token prediction as an auxiliary
training task, we measure improved downstream capabilities with no overhead in
training time for both code and natural language models. The method is
increasingly useful for larger model sizes, and keeps its appeal when training
for multiple epochs. Gains are especially pronounced on generative benchmarks
like coding, where our models consistently outperform strong baselines by
several percentage points. Our 13B parameter models solves 12 % more problems
on HumanEval and 17 % more on MBPP than comparable next-token models.
Experiments on small algorithmic tasks demonstrate that multi-token prediction
is favorable for the development of induction heads and algorithmic reasoning
capabilities. As an additional benefit, models trained with 4-token prediction
are up to 3 times faster at inference, even with large batch sizes.