Effectieve schaalbaarheid van foundation models voor lange contexten
Effective Long-Context Scaling of Foundation Models
September 27, 2023
Auteurs: Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma
cs.AI
Samenvatting
We presenteren een reeks long-context LLM's die effectieve contextvensters ondersteunen van maximaal 32.768 tokens. Onze modelreeks is gebouwd door middel van voortgezette pretraining van Llama 2 met langere trainingssequenties en op een dataset waarin lange teksten worden opgewaardeerd. We voeren uitgebreide evaluaties uit op het gebied van taalmodellering, synthetische contextonderzoekstaken en een breed scala aan onderzoeksbenchmarks. Op onderzoeksbenchmarks behalen onze modellen consistente verbeteringen op de meeste reguliere taken en aanzienlijke verbeteringen op long-context taken ten opzichte van Llama 2. Opmerkelijk is dat de 70B-variant, met een kosteneffectieve instructieafstemmingsprocedure die geen door mensen geannoteerde lange instructiedata vereist, de algehele prestaties van gpt-3.5-turbo-16k al kan overtreffen op een reeks long-context taken. Naast deze resultaten bieden we een diepgaande analyse van de individuele componenten van onze methode. We duiken in de positionele coderingen van Llama en bespreken de beperkingen ervan bij het modelleren van lange afhankelijkheden. We onderzoeken ook de impact van verschillende ontwerpkeuzes in het pretrainingsproces, waaronder de datamix en het trainingscurriculum van sequentielengtes -- onze ablatie-experimenten suggereren dat het hebben van overvloedige lange teksten in de pretrain-dataset niet de sleutel is tot het bereiken van sterke prestaties, en we verifiëren empirisch dat long-context voortgezette pretraining efficiënter en even effectief is in vergelijking met pretraining vanaf nul met lange sequenties.
English
We present a series of long-context LLMs that support effective context
windows of up to 32,768 tokens. Our model series are built through continual
pretraining from Llama 2 with longer training sequences and on a dataset where
long texts are upsampled. We perform extensive evaluation on language modeling,
synthetic context probing tasks, and a wide range of research benchmarks. On
research benchmarks, our models achieve consistent improvements on most regular
tasks and significant improvements on long-context tasks over Llama 2. Notably,
with a cost-effective instruction tuning procedure that does not require
human-annotated long instruction data, the 70B variant can already surpass
gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks.
Alongside these results, we provide an in-depth analysis on the individual
components of our method. We delve into Llama's position encodings and discuss
its limitation in modeling long dependencies. We also examine the impact of
various design choices in the pretraining process, including the data mix and
the training curriculum of sequence lengths -- our ablation experiments suggest
that having abundant long texts in the pretrain dataset is not the key to
achieving strong performance, and we empirically verify that long context
continual pretraining is more efficient and similarly effective compared to
pretraining from scratch with long sequences.