CLEX: Extrapolação Contínua de Comprimento para Modelos de Linguagem de Grande Escala
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Autores: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers estão liderando avanços em muitas tarefas de processamento de linguagem natural. No entanto, suas capacidades excepcionais são limitadas pela janela de contexto pré-definida do Transformer. Métodos de escalonamento de Embedding de Posição (PE), embora eficazes em estender a janela de contexto para um comprimento específico, demonstram limitações notáveis em suas habilidades de extrapolação ou sacrificam parte do desempenho dentro da janela de contexto. Métodos de extrapolação de comprimento, embora teoricamente capazes de estender a janela de contexto além do comprimento da sequência de treinamento, frequentemente têm desempenho inferior em aplicações práticas de contexto longo. Para enfrentar esses desafios, propomos a Extrapolação Contínua de Comprimento (CLEX) para LLMs. Generalizamos as abordagens de escalonamento de PE para modelar a dinâmica contínua por meio de equações diferenciais ordinárias sobre o fator de escalonamento de comprimento, superando assim as limitações dos métodos atuais de escalonamento de PE projetados para comprimentos específicos. Além disso, ao estender a dinâmica para comprimentos de contexto desejados além do comprimento da sequência de treinamento, o CLEX facilita a extrapolação de comprimento com desempenho impressionante em tarefas práticas. Demonstramos que o CLEX pode ser incorporado de forma contínua em LLMs equipados com Embedding de Posição Rotacional, como LLaMA e GPT-NeoX, com impacto insignificante na latência de treinamento e inferência. Resultados experimentais revelam que o CLEX pode estender efetivamente a janela de contexto para mais de 4x ou quase 8x o comprimento de treinamento, sem deterioração no desempenho. Além disso, quando avaliado no benchmark prático LongBench, nosso modelo treinado com um comprimento de 4k exibe desempenho competitivo em comparação com modelos de código aberto state-of-the-art treinados com comprimentos de contexto de até 32k.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.