LongRoPE: Estendendo a Janela de Contexto de LLMs para Além de 2 Milhões de Tokens
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
February 21, 2024
Autores: Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang
cs.AI
Resumo
Uma janela de contexto ampla é uma característica desejável em grandes modelos de linguagem (LLMs). No entanto, devido aos altos custos de ajuste fino, à escassez de textos longos e aos valores catastróficos introduzidos por novas posições de tokens, as janelas de contexto estendidas atuais são limitadas a cerca de 128 mil tokens. Este artigo apresenta o LongRoPE que, pela primeira vez, estende a janela de contexto de LLMs pré-treinados para impressionantes 2048 mil tokens, com até apenas 1 mil passos de ajuste fino em comprimentos de treinamento de até 256 mil tokens, mantendo o desempenho na janela de contexto original curta. Isso é alcançado por três inovações principais: (i) identificamos e exploramos duas formas de não uniformidades na interpolação posicional por meio de uma busca eficiente, fornecendo uma melhor inicialização para o ajuste fino e permitindo uma extensão de 8x em cenários sem ajuste fino; (ii) introduzimos uma estratégia de extensão progressiva que primeiro ajusta um LLM de 256 mil tokens e, em seguida, realiza uma segunda interpolação posicional no LLM estendido ajustado para alcançar uma janela de contexto de 2048 mil tokens; (iii) reajustamos o LongRoPE em comprimentos de 8 mil tokens para recuperar o desempenho da janela de contexto curta. Experimentos extensivos em LLaMA2 e Mistral em várias tarefas demonstram a eficácia do nosso método. Modelos estendidos via LongRoPE mantêm a arquitetura original com pequenas modificações na incorporação posicional e podem reutilizar a maioria das otimizações pré-existentes.
English
Large context window is a desirable feature in large language models (LLMs).
However, due to high fine-tuning costs, scarcity of long texts, and
catastrophic values introduced by new token positions, current extended context
windows are limited to around 128k tokens. This paper introduces LongRoPE that,
for the first time, extends the context window of pre-trained LLMs to an
impressive 2048k tokens, with up to only 1k fine-tuning steps at within 256k
training lengths, while maintaining performance at the original short context
window. This is achieved by three key innovations: (i) we identify and exploit
two forms of non-uniformities in positional interpolation through an efficient
search, providing a better initialization for fine-tuning and enabling an 8x
extension in non-fine-tuning scenarios; (ii) we introduce a progressive
extension strategy that first fine-tunes a 256k length LLM and then conducts a
second positional interpolation on the fine-tuned extended LLM to achieve a
2048k context window; (iii) we readjust LongRoPE on 8k length to recover the
short context window performance. Extensive experiments on LLaMA2 and Mistral
across various tasks demonstrate the effectiveness of our method. Models
extended via LongRoPE retain the original architecture with minor modifications
to the positional embedding, and can reuse most pre-existing optimizations.