Llama-3's contextuele capaciteit tienvoudig uitbreiden in één nacht
Extending Llama-3's Context Ten-Fold Overnight
April 30, 2024
Auteurs: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI
Samenvatting
We breiden de contextlengte van Llama-3-8B-Instruct uit van 8K naar 80K via QLoRA
fine-tuning. De volledige trainingscyclus is zeer efficiënt en duurt 8 uur
op één 8xA800 (80G) GPU-machine. Het resulterende model vertoont superieure
prestaties op een breed scala aan evaluatietaken, zoals NIHS, onderwerp-
retrieval en lang-context taalbegrip; tegelijkertijd behoudt het ook goed
de oorspronkelijke capaciteit over korte contexten. De dramatische context-
uitbreiding is voornamelijk te danken aan slechts 3.5K synthetische trainings-
voorbeelden gegenereerd door GPT-4, wat wijst op het inherente (maar grotendeels
onderschatte) potentieel van LLMs om hun oorspronkelijke contextlengte uit te
breiden. In feite zou de contextlengte ver voorbij 80K kunnen worden uitgebreid
met meer rekenbronnen. Daarom zal het team de volledige bronnen (inclusief data,
model, datageneratiepijplijn, trainingscode) openbaar vrijgeven om toekomstig
onderzoek vanuit de gemeenschap te faciliteren:
https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA
fine-tuning. The entire training cycle is super efficient, which takes 8 hours
on one 8xA800 (80G) GPU machine. The resulted model exhibits superior
performances across a broad range of evaluation tasks, such as NIHS, topic
retrieval, and long-context language understanding; meanwhile, it also well
preserves the original capability over short contexts. The dramatic context
extension is mainly attributed to merely 3.5K synthetic training samples
generated by GPT-4 , which indicates the LLMs' inherent (yet largely
underestimated) potential to extend its original context length. In fact, the
context length could be extended far beyond 80K with more computation
resources. Therefore, the team will publicly release the entire resources
(including data, model, data generation pipeline, training code) so as to
facilitate the future research from the community:
https://github.com/FlagOpen/FlagEmbedding.