Effectieve schaalbaarheid van foundation models voor lange contexten

Samenvatting

We presenteren een reeks long-context LLM's die effectieve contextvensters ondersteunen van maximaal 32.768 tokens. Onze modelreeks is gebouwd door middel van voortgezette pretraining van Llama 2 met langere trainingssequenties en op een dataset waarin lange teksten worden opgewaardeerd. We voeren uitgebreide evaluaties uit op het gebied van taalmodellering, synthetische contextonderzoekstaken en een breed scala aan onderzoeksbenchmarks. Op onderzoeksbenchmarks behalen onze modellen consistente verbeteringen op de meeste reguliere taken en aanzienlijke verbeteringen op long-context taken ten opzichte van Llama 2. Opmerkelijk is dat de 70B-variant, met een kosteneffectieve instructieafstemmingsprocedure die geen door mensen geannoteerde lange instructiedata vereist, de algehele prestaties van gpt-3.5-turbo-16k al kan overtreffen op een reeks long-context taken. Naast deze resultaten bieden we een diepgaande analyse van de individuele componenten van onze methode. We duiken in de positionele coderingen van Llama en bespreken de beperkingen ervan bij het modelleren van lange afhankelijkheden. We onderzoeken ook de impact van verschillende ontwerpkeuzes in het pretrainingsproces, waaronder de datamix en het trainingscurriculum van sequentielengtes -- onze ablatie-experimenten suggereren dat het hebben van overvloedige lange teksten in de pretrain-dataset niet de sleutel is tot het bereiken van sterke prestaties, en we verifiëren empirisch dat long-context voortgezette pretraining efficiënter en even effectief is in vergelijking met pretraining vanaf nul met lange sequenties.

English

We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.

Effectieve schaalbaarheid van foundation models voor lange contexten

Effective Long-Context Scaling of Foundation Models

Samenvatting

Support