ChatPaper.aiChatPaper

Расширение контекста Llama-3 в десять раз за ночь.

Extending Llama-3's Context Ten-Fold Overnight

April 30, 2024
Авторы: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI

Аннотация

Мы увеличили длину контекста модели Llama-3-8B-Instruct с 8K до 80K с помощью донастройки QLoRA. Весь цикл обучения проходит очень эффективно и занимает 8 часов на одном GPU-сервере 8xA800 (80G). Полученная модель демонстрирует выдающиеся результаты на широком спектре задач оценки, таких как NIHS, поиск тем и понимание языка в длинном контексте; при этом она также успешно сохраняет исходные возможности в коротких контекстах. Драматическое увеличение контекста в основном обусловлено всего лишь 3.5K синтетическими обучающими образцами, сгенерированными GPT-4, что указывает на врожденный (но в значительной степени недооцененный) потенциал LLMs увеличивать исходную длину контекста. Фактически, длину контекста можно увеличить значительно за пределы 80K с использованием больших вычислительных ресурсов. Поэтому команда планирует публично опубликовать все ресурсы (включая данные, модель, процесс генерации данных, код обучения) для содействия будущим исследованиям сообщества: https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.

Summary

AI-Generated Summary

PDF353December 8, 2024