Betere en Snellere Grote Taalmodellen via Multi-token Voorspelling

Samenvatting

Grote taalmodelen zoals GPT en Llama worden getraind met een next-token voorspellingsverlies. In dit werk suggereren we dat het trainen van taalmodelen om meerdere toekomstige tokens tegelijk te voorspellen resulteert in een hogere sample-efficiëntie. Meer specifiek vragen we het model op elke positie in de trainingscorpus om de volgende n tokens te voorspellen met behulp van n onafhankelijke uitvoerkoppen, die opereren bovenop een gedeelde modelstructuur. Door multi-token voorspelling te beschouwen als een aanvullende trainings taak, meten we verbeterde downstream-capaciteiten zonder overhead in trainings tijd voor zowel code- als natuurlijke taalmodellen. De methode wordt steeds nuttiger voor grotere modelgroottes en behoudt zijn aantrekkingskracht bij het trainen voor meerdere epochs. De winsten zijn vooral duidelijk op generatieve benchmarks zoals coderen, waar onze modellen consistent sterke baselines verslaan met meerdere procentpunten. Onze 13B parameter modellen lossen 12% meer problemen op in HumanEval en 17% meer in MBPP dan vergelijkbare next-token modellen. Experimenten op kleine algoritmische taken tonen aan dat multi-token voorspelling gunstig is voor de ontwikkeling van inductiekoppen en algoritmische redeneervaardigheden. Als een extra voordeel zijn modellen getraind met 4-token voorspelling tot 3 keer sneller tijdens inferentie, zelfs bij grote batchgroottes.

English

Large language models such as GPT and Llama are trained with a next-token prediction loss. In this work, we suggest that training language models to predict multiple future tokens at once results in higher sample efficiency. More specifically, at each position in the training corpus, we ask the model to predict the following n tokens using n independent output heads, operating on top of a shared model trunk. Considering multi-token prediction as an auxiliary training task, we measure improved downstream capabilities with no overhead in training time for both code and natural language models. The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points. Our 13B parameter models solves 12 % more problems on HumanEval and 17 % more on MBPP than comparable next-token models. Experiments on small algorithmic tasks demonstrate that multi-token prediction is favorable for the development of induction heads and algorithmic reasoning capabilities. As an additional benefit, models trained with 4-token prediction are up to 3 times faster at inference, even with large batch sizes.

Betere en Snellere Grote Taalmodellen via Multi-token Voorspelling

Better & Faster Large Language Models via Multi-token Prediction

Samenvatting

Support