LongLoRA: Ajuste Fino Eficiente de Modelos de Linguagem de Grande Escala com Contexto Longo
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
September 21, 2023
Autores: Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia
cs.AI
Resumo
Apresentamos o LongLoRA, uma abordagem eficiente de ajuste fino que estende os tamanhos de contexto de modelos de linguagem grandes (LLMs) pré-treinados, com custo computacional limitado. Normalmente, treinar LLMs com tamanhos de contexto longos é computacionalmente caro, exigindo horas extensas de treinamento e recursos de GPU. Por exemplo, treinar com um comprimento de contexto de 8192 requer 16 vezes o custo computacional nas camadas de autoatenção em comparação com 2048. Neste artigo, aceleramos a extensão de contexto de LLMs em dois aspectos. Por um lado, embora a atenção global densa seja necessária durante a inferência, o ajuste fino do modelo pode ser feito de forma eficaz e eficiente por meio de atenção local esparsa. A atenção curta deslocada proposta permite efetivamente a extensão de contexto, levando a uma economia computacional significativa com desempenho semelhante ao ajuste fino com atenção padrão. Particularmente, ela pode ser implementada com apenas duas linhas de código durante o treinamento, sendo opcional na inferência. Por outro lado, revisitamos o regime de ajuste fino eficiente em parâmetros para expansão de contexto. Notavelmente, descobrimos que o LoRA para extensão de contexto funciona bem sob a premissa de incorporação e normalização treináveis. O LongLoRA demonstra resultados empíricos robustos em várias tarefas em modelos LLaMA2 de 7B/13B a 70B. O LongLoRA adapta o LLaMA2 7B de 4k de contexto para 100k, ou o LLaMA2 70B para 32k em uma única máquina com 8x A100. O LongLoRA estende o contexto dos modelos enquanto mantém suas arquiteturas originais e é compatível com a maioria das técnicas existentes, como o FlashAttention-2. Além disso, para tornar o LongLoRA prático, coletamos um conjunto de dados, o LongQA, para ajuste fino supervisionado. Ele contém mais de 3 mil pares de perguntas e respostas de contexto longo.
English
We present LongLoRA, an efficient fine-tuning approach that extends the
context sizes of pre-trained large language models (LLMs), with limited
computation cost. Typically, training LLMs with long context sizes is
computationally expensive, requiring extensive training hours and GPU
resources. For example, training on the context length of 8192 needs 16x
computational costs in self-attention layers as that of 2048. In this paper, we
speed up the context extension of LLMs in two aspects. On the one hand,
although dense global attention is needed during inference, fine-tuning the
model can be effectively and efficiently done by sparse local attention. The
proposed shift short attention effectively enables context extension, leading
to non-trivial computation saving with similar performance to fine-tuning with
vanilla attention. Particularly, it can be implemented with only two lines of
code in training, while being optional in inference. On the other hand, we
revisit the parameter-efficient fine-tuning regime for context expansion.
Notably, we find that LoRA for context extension works well under the premise
of trainable embedding and normalization. LongLoRA demonstrates strong
empirical results on various tasks on LLaMA2 models from 7B/13B to 70B.
LongLoRA adopts LLaMA2 7B from 4k context to 100k, or LLaMA2 70B to 32k on a
single 8x A100 machine. LongLoRA extends models' context while retaining their
original architectures, and is compatible with most existing techniques, like
FlashAttention-2. In addition, to make LongLoRA practical, we collect a
dataset, LongQA, for supervised fine-tuning. It contains more than 3k long
context question-answer pairs.