Engenharia de Dados para Escalonamento de Modelos de Linguagem para Contextos de 128K

Resumo

Estudamos a receita de pré-treinamento contínuo para escalar o comprimento de contexto de modelos de linguagem para 128K, com foco na engenharia de dados. Nossa hipótese é que a modelagem de contexto longo, em particular a capacidade de utilizar informações em locais arbitrários de entrada, é uma habilidade que já é majoritariamente adquirida através de pré-treinamento em larga escala, e que essa capacidade pode ser prontamente estendida para contextos substancialmente mais longos do que os vistos durante o treinamento (por exemplo, de 4K para 128K) por meio de pré-treinamento contínuo leve em uma mistura de dados apropriada. Investigamos a quantidade e a qualidade dos dados para pré-treinamento contínuo: (1) para quantidade, mostramos que 500 milhões a 5 bilhões de tokens são suficientes para permitir que o modelo recupere informações em qualquer lugar dentro do contexto de 128K; (2) para qualidade, nossos resultados enfatizam igualmente o equilíbrio de domínio e a amostragem de comprimento. Concretamente, descobrimos que a amostragem ingênua de dados mais longos em certos domínios, como livros, uma prática comum de trabalhos existentes, resulta em desempenho subótimo, e que uma mistura equilibrada de domínios é importante. Demonstramos que o pré-treinamento contínuo do modelo completo em 1B-5B tokens de tais dados é uma estratégia eficaz e acessível para escalar o comprimento de contexto de modelos de linguagem para 128K. Nossa receita supera modelos de contexto longo de código aberto robustos e reduz a lacuna para modelos de fronteira, como o GPT-4 128K.

English

We study the continual pretraining recipe for scaling language models' context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular the ability to utilize information at arbitrary input locations, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the quantity and quality of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize domain balance and length upsampling. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.

Engenharia de Dados para Escalonamento de Modelos de Linguagem para Contextos de 128K

Data Engineering for Scaling Language Models to 128K Context

Resumo

Support