ReceitaLonga: Receita para Generalização Eficiente de Contexto Longo em Modelos de Linguagem Grandes
LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models
August 31, 2024
Autores: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) enfrentam desafios significativos ao lidar com tarefas de longo contexto devido ao tamanho limitado da janela de contexto efetiva durante o pré-treinamento, o que restringe sua capacidade de generalizar sobre sequências estendidas. Enquanto isso, estender a janela de contexto em LLMs por meio de pós-pré-treinamento é altamente intensivo em recursos. Para lidar com isso, introduzimos **LongRecipe**, uma estratégia eficiente de treinamento para ampliar a janela de contexto de LLMs, incluindo análise impactante de tokens, transformação de índice de posição e estratégias de otimização de treinamento. Ele simula entradas de sequências longas mantendo a eficiência de treinamento e melhora significativamente a compreensão do modelo sobre dependências de longo alcance. Experimentos em três tipos de LLMs mostram que o LongRecipe pode utilizar sequências longas exigindo apenas 30% do tamanho da janela de contexto alvo, e reduz os recursos computacionais de treinamento em mais de 85% em comparação com o treinamento de sequência completa. Além disso, o LongRecipe também preserva as capacidades originais do LLM em tarefas gerais. Por fim, *podemos ampliar a janela de contexto efetiva de LLMs de código aberto de 8k para 128k, alcançando desempenho próximo ao do GPT-4 com apenas um dia de treinamento dedicado usando uma única GPU com 80G de memória.* Nosso código está disponível no [link](https://github.com/zhiyuanhubj/LongRecipe).
English
Large language models (LLMs) face significant challenges in handling
long-context tasks because of their limited effective context window size
during pretraining, which restricts their ability to generalize over extended
sequences. Meanwhile, extending the context window in LLMs through
post-pretraining is highly resource-intensive. To address this, we introduce
**LongRecipe**, an efficient training strategy for extending the context window
of LLMs, including impactful token analysis, position index transformation, and
training optimization strategies. It simulates long-sequence inputs while
maintaining training efficiency and significantly improves the model's
understanding of long-range dependencies. Experiments on three types of LLMs
show that LongRecipe can utilize long sequences while requiring only 30% of the
target context window size, and reduces computational training resource over
85% compared to full sequence training. Furthermore, LongRecipe also preserves
the original LLM's capabilities in general tasks. Ultimately, *we can extend
the effective context window of open-source LLMs from 8k to 128k, achieving
performance close to GPT-4 with just one day of dedicated training using a
single GPU with 80G memory.* Our code is released at the
[link](https://github.com/zhiyuanhubj/LongRecipe).Summary
AI-Generated Summary