Extendendo o Contexto do Llama-3 em Dez Vezes em uma Noite

Resumo

Estendemos o comprimento de contexto do Llama-3-8B-Instruct de 8K para 80K por meio de ajuste fino com QLoRA. Todo o ciclo de treinamento é extremamente eficiente, levando apenas 8 horas em uma máquina com 8 GPUs A800 (80G). O modelo resultante exibe desempenho superior em uma ampla gama de tarefas de avaliação, como NIHS, recuperação de tópicos e compreensão de linguagem em contextos longos; ao mesmo tempo, também preserva bem a capacidade original em contextos curtos. A extensão dramática do contexto é atribuída principalmente a apenas 3.5K amostras de treinamento sintéticas geradas pelo GPT-4, o que indica o potencial inerente (mas amplamente subestimado) dos LLMs para estender seu comprimento de contexto original. Na verdade, o comprimento de contexto poderia ser estendido muito além de 80K com mais recursos computacionais. Portanto, a equipe disponibilizará publicamente todos os recursos (incluindo dados, modelo, pipeline de geração de dados, código de treinamento) para facilitar pesquisas futuras da comunidade: https://github.com/FlagOpen/FlagEmbedding.

English

We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.

Extendendo o Contexto do Llama-3 em Dez Vezes em uma Noite

Extending Llama-3's Context Ten-Fold Overnight

Resumo

Support