Extension du contexte de Llama-3 par dix en une nuit
Extending Llama-3's Context Ten-Fold Overnight
April 30, 2024
Auteurs: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI
Résumé
Nous étendons la longueur de contexte de Llama-3-8B-Instruct de 8K à 80K via un fine-tuning QLoRA. L'ensemble du cycle d'entraînement est extrêmement efficace, prenant seulement 8 heures sur une machine équipée de 8 GPU A800 (80G). Le modèle résultant démontre des performances supérieures sur une large gamme de tâches d'évaluation, telles que NIHS, la récupération de sujets et la compréhension de langage en contexte long ; tout en préservant également ses capacités originales sur des contextes courts. Cette extension spectaculaire du contexte est principalement attribuable à seulement 3 500 échantillons d'entraînement synthétiques générés par GPT-4, ce qui met en évidence le potentiel inhérent (mais largement sous-estimé) des LLM à étendre leur longueur de contexte initiale. En réalité, la longueur de contexte pourrait être étendue bien au-delà de 80K avec davantage de ressources de calcul. Par conséquent, l'équipe rendra publiquement disponibles l'ensemble des ressources (y compris les données, le modèle, le pipeline de génération de données et le code d'entraînement) afin de faciliter les recherches futures de la communauté :
https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA
fine-tuning. The entire training cycle is super efficient, which takes 8 hours
on one 8xA800 (80G) GPU machine. The resulted model exhibits superior
performances across a broad range of evaluation tasks, such as NIHS, topic
retrieval, and long-context language understanding; meanwhile, it also well
preserves the original capability over short contexts. The dramatic context
extension is mainly attributed to merely 3.5K synthetic training samples
generated by GPT-4 , which indicates the LLMs' inherent (yet largely
underestimated) potential to extend its original context length. In fact, the
context length could be extended far beyond 80K with more computation
resources. Therefore, the team will publicly release the entire resources
(including data, model, data generation pipeline, training code) so as to
facilitate the future research from the community:
https://github.com/FlagOpen/FlagEmbedding.Summary
AI-Generated Summary