ReceitaLonga: Receita para Generalização Eficiente de Contexto Longo em Modelos de Linguagem Grandes

Resumo

Grandes modelos de linguagem (LLMs) enfrentam desafios significativos ao lidar com tarefas de longo contexto devido ao tamanho limitado da janela de contexto efetiva durante o pré-treinamento, o que restringe sua capacidade de generalizar sobre sequências estendidas. Enquanto isso, estender a janela de contexto em LLMs por meio de pós-pré-treinamento é altamente intensivo em recursos. Para lidar com isso, introduzimos **LongRecipe**, uma estratégia eficiente de treinamento para ampliar a janela de contexto de LLMs, incluindo análise impactante de tokens, transformação de índice de posição e estratégias de otimização de treinamento. Ele simula entradas de sequências longas mantendo a eficiência de treinamento e melhora significativamente a compreensão do modelo sobre dependências de longo alcance. Experimentos em três tipos de LLMs mostram que o LongRecipe pode utilizar sequências longas exigindo apenas 30% do tamanho da janela de contexto alvo, e reduz os recursos computacionais de treinamento em mais de 85% em comparação com o treinamento de sequência completa. Além disso, o LongRecipe também preserva as capacidades originais do LLM em tarefas gerais. Por fim, *podemos ampliar a janela de contexto efetiva de LLMs de código aberto de 8k para 128k, alcançando desempenho próximo ao do GPT-4 com apenas um dia de treinamento dedicado usando uma única GPU com 80G de memória.* Nosso código está disponível no [link](https://github.com/zhiyuanhubj/LongRecipe).

English

Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).

ReceitaLonga: Receita para Generalização Eficiente de Contexto Longo em Modelos de Linguagem Grandes

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

Resumo

Summary

Support

Support