ChatPaper.aiChatPaper

Data Engineering voor het Schalen van Taalmodellen naar 128K Context

Data Engineering for Scaling Language Models to 128K Context

February 15, 2024
Auteurs: Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim, Hao Peng
cs.AI

Samenvatting

We bestuderen het recept voor voortgezette pretraining om de contextlengte van taalmodelen op te schalen naar 128K, met een focus op data-engineering. We veronderstellen dat modellering van lange contexten, in het bijzonder het vermogen om informatie op willekeurige invoerposities te benutten, een vaardigheid is die grotendeels al is verworven via grootschalige pretraining, en dat deze vaardigheid eenvoudig kan worden uitgebreid naar contexten die aanzienlijk langer zijn dan tijdens de training zijn gezien (bijvoorbeeld van 4K naar 128K) door middel van lichtgewicht voortgezette pretraining op een geschikt datamengsel. We onderzoeken de hoeveelheid en kwaliteit van de data voor voortgezette pretraining: (1) wat betreft hoeveelheid tonen we aan dat 500 miljoen tot 5 miljard tokens voldoende zijn om het model in staat te stellen informatie overal binnen de 128K-context te halen; (2) wat betreft kwaliteit benadrukken onze resultaten evenzeer domeinbalans en lengte-upsampling. Concreet vinden we dat het naïef upsamplen van langere data in bepaalde domeinen zoals boeken, een gangbare praktijk in bestaand werk, suboptimale prestaties oplevert, en dat een gebalanceerd domeinmengsel belangrijk is. We demonstreren dat voortgezette pretraining van het volledige model op 1B-5B tokens van dergelijke data een effectieve en betaalbare strategie is om de contextlengte van taalmodelen op te schalen naar 128K. Ons recept overtreft sterke open-source lange-contextmodellen en verkleint de kloof naar frontiermodellen zoals GPT-4 128K.
English
We study the continual pretraining recipe for scaling language models' context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular the ability to utilize information at arbitrary input locations, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the quantity and quality of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize domain balance and length upsampling. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.
PDF257December 15, 2024