ChatPaper.aiChatPaper

Verlängerung des Kontexts von Llama-3 um das Zehnfache über Nacht.

Extending Llama-3's Context Ten-Fold Overnight

April 30, 2024
Autoren: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI

Zusammenfassung

Wir erweitern die Kontextlänge von Llama-3-8B-Instruct von 8K auf 80K durch QLoRA Feinabstimmung. Der gesamte Schulungszyklus ist äußerst effizient und dauert 8 Stunden auf einer 8xA800 (80G) GPU-Maschine. Das resultierende Modell zeigt überlegene Leistungen in einer breiten Palette von Bewertungsaufgaben, wie NIHS, Themenabruf und Verständnis von Sprache mit langem Kontext; gleichzeitig bewahrt es auch die ursprüngliche Leistungsfähigkeit über kurze Kontexte gut. Die dramatische Kontexterweiterung ist hauptsächlich auf lediglich 3,5K synthetische Trainingsbeispiele zurückzuführen, die von GPT-4 generiert wurden, was auf das inhärente (aber weitgehend unterschätzte) Potenzial der LLMs hinweist, ihre ursprüngliche Kontextlänge zu erweitern. Tatsächlich könnte die Kontextlänge mit mehr Rechenressourcen weit über 80K hinaus erweitert werden. Daher wird das Team die gesamten Ressourcen (einschließlich Daten, Modell, Daten-Generierungspipeline, Schulungscode) öffentlich freigeben, um zukünftige Forschungen aus der Gemeinschaft zu erleichtern: https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.

Summary

AI-Generated Summary

PDF353December 8, 2024