ChatPaper.aiChatPaper

Llama-3's contextuele capaciteit tienvoudig uitbreiden in één nacht

Extending Llama-3's Context Ten-Fold Overnight

April 30, 2024
Auteurs: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI

Samenvatting

We breiden de contextlengte van Llama-3-8B-Instruct uit van 8K naar 80K via QLoRA fine-tuning. De volledige trainingscyclus is zeer efficiënt en duurt 8 uur op één 8xA800 (80G) GPU-machine. Het resulterende model vertoont superieure prestaties op een breed scala aan evaluatietaken, zoals NIHS, onderwerp- retrieval en lang-context taalbegrip; tegelijkertijd behoudt het ook goed de oorspronkelijke capaciteit over korte contexten. De dramatische context- uitbreiding is voornamelijk te danken aan slechts 3.5K synthetische trainings- voorbeelden gegenereerd door GPT-4, wat wijst op het inherente (maar grotendeels onderschatte) potentieel van LLMs om hun oorspronkelijke contextlengte uit te breiden. In feite zou de contextlengte ver voorbij 80K kunnen worden uitgebreid met meer rekenbronnen. Daarom zal het team de volledige bronnen (inclusief data, model, datageneratiepijplijn, trainingscode) openbaar vrijgeven om toekomstig onderzoek vanuit de gemeenschap te faciliteren: https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.
PDF343February 8, 2026