Estendere il contesto di Llama-3 di dieci volte in una notte

Abstract

Estendiamo la lunghezza del contesto di Llama-3-8B-Instruct da 8K a 80K tramite fine-tuning QLoRA. L'intero ciclo di addestramento è estremamente efficiente, richiedendo 8 ore su una macchina con 8 GPU A800 (80G). Il modello risultante mostra prestazioni superiori in un'ampia gamma di task di valutazione, come NIHS, recupero di argomenti e comprensione del linguaggio in contesti lunghi; allo stesso tempo, preserva bene le capacità originali su contesti brevi. L'estensione significativa del contesto è principalmente attribuita a soli 3.5K campioni di addestramento sintetici generati da GPT-4, il che indica il potenziale intrinseco (ma ampiamente sottovalutato) dei LLM di estendere la loro lunghezza di contesto originale. In effetti, la lunghezza del contesto potrebbe essere estesa ben oltre 80K con maggiori risorse computazionali. Pertanto, il team rilascerà pubblicamente tutte le risorse (inclusi dati, modello, pipeline di generazione dati e codice di addestramento) per facilitare la ricerca futura da parte della comunità: https://github.com/FlagOpen/FlagEmbedding.

English

We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.

Estendere il contesto di Llama-3 di dieci volte in una notte

Extending Llama-3's Context Ten-Fold Overnight

Abstract

Support