ChatPaper.aiChatPaper

Extendiendo el Contexto de Llama-3 Diez Veces de la Noche a la Mañana

Extending Llama-3's Context Ten-Fold Overnight

April 30, 2024
Autores: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou
cs.AI

Resumen

Extendemos la longitud de contexto de Llama-3-8B-Instruct de 8K a 80K mediante ajuste fino con QLoRA. Todo el ciclo de entrenamiento es extremadamente eficiente, tomando solo 8 horas en una máquina con 8 GPUs A800 (80G). El modelo resultante muestra un rendimiento superior en una amplia gama de tareas de evaluación, como NIHS, recuperación de temas y comprensión de lenguaje en contextos largos; al mismo tiempo, conserva adecuadamente las capacidades originales en contextos cortos. La extensión dramática del contexto se atribuye principalmente a solo 3.5K muestras de entrenamiento sintéticas generadas por GPT-4, lo que indica el potencial inherente (aunque en gran medida subestimado) de los LLMs para extender su longitud de contexto original. De hecho, la longitud de contexto podría extenderse mucho más allá de 80K con más recursos computacionales. Por lo tanto, el equipo liberará públicamente todos los recursos (incluyendo datos, modelo, pipeline de generación de datos y código de entrenamiento) para facilitar futuras investigaciones por parte de la comunidad: https://github.com/FlagOpen/FlagEmbedding.
English
We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: https://github.com/FlagOpen/FlagEmbedding.

Summary

AI-Generated Summary

PDF353December 8, 2024