LongLoRA: Ajuste Fino Eficiente de Modelos de Linguagem de Grande Escala com Contexto Longo

Resumo

Apresentamos o LongLoRA, uma abordagem eficiente de ajuste fino que estende os tamanhos de contexto de modelos de linguagem grandes (LLMs) pré-treinados, com custo computacional limitado. Normalmente, treinar LLMs com tamanhos de contexto longos é computacionalmente caro, exigindo horas extensas de treinamento e recursos de GPU. Por exemplo, treinar com um comprimento de contexto de 8192 requer 16 vezes o custo computacional nas camadas de autoatenção em comparação com 2048. Neste artigo, aceleramos a extensão de contexto de LLMs em dois aspectos. Por um lado, embora a atenção global densa seja necessária durante a inferência, o ajuste fino do modelo pode ser feito de forma eficaz e eficiente por meio de atenção local esparsa. A atenção curta deslocada proposta permite efetivamente a extensão de contexto, levando a uma economia computacional significativa com desempenho semelhante ao ajuste fino com atenção padrão. Particularmente, ela pode ser implementada com apenas duas linhas de código durante o treinamento, sendo opcional na inferência. Por outro lado, revisitamos o regime de ajuste fino eficiente em parâmetros para expansão de contexto. Notavelmente, descobrimos que o LoRA para extensão de contexto funciona bem sob a premissa de incorporação e normalização treináveis. O LongLoRA demonstra resultados empíricos robustos em várias tarefas em modelos LLaMA2 de 7B/13B a 70B. O LongLoRA adapta o LLaMA2 7B de 4k de contexto para 100k, ou o LLaMA2 70B para 32k em uma única máquina com 8x A100. O LongLoRA estende o contexto dos modelos enquanto mantém suas arquiteturas originais e é compatível com a maioria das técnicas existentes, como o FlashAttention-2. Além disso, para tornar o LongLoRA prático, coletamos um conjunto de dados, o LongQA, para ajuste fino supervisionado. Ele contém mais de 3 mil pares de perguntas e respostas de contexto longo.

English

We present LongLoRA, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (LLMs), with limited computation cost. Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. For example, training on the context length of 8192 needs 16x computational costs in self-attention layers as that of 2048. In this paper, we speed up the context extension of LLMs in two aspects. On the one hand, although dense global attention is needed during inference, fine-tuning the model can be effectively and efficiently done by sparse local attention. The proposed shift short attention effectively enables context extension, leading to non-trivial computation saving with similar performance to fine-tuning with vanilla attention. Particularly, it can be implemented with only two lines of code in training, while being optional in inference. On the other hand, we revisit the parameter-efficient fine-tuning regime for context expansion. Notably, we find that LoRA for context extension works well under the premise of trainable embedding and normalization. LongLoRA demonstrates strong empirical results on various tasks on LLaMA2 models from 7B/13B to 70B. LongLoRA adopts LLaMA2 7B from 4k context to 100k, or LLaMA2 70B to 32k on a single 8x A100 machine. LongLoRA extends models' context while retaining their original architectures, and is compatible with most existing techniques, like FlashAttention-2. In addition, to make LongLoRA practical, we collect a dataset, LongQA, for supervised fine-tuning. It contains more than 3k long context question-answer pairs.

LongLoRA: Ajuste Fino Eficiente de Modelos de Linguagem de Grande Escala com Contexto Longo

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

Resumo

Support