ChatPaper.aiChatPaper

Langrezept: Rezept für effiziente Generalisierung von langen Kontexten in großen Sprachmodellen

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

August 31, 2024
Autoren: Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) stehen vor erheblichen Herausforderungen bei der Bewältigung von Aufgaben mit langem Kontext aufgrund ihrer begrenzten effektiven Kontextfenstergröße während des Pretrainings, was ihre Fähigkeit einschränkt, über erweiterte Sequenzen zu generalisieren. Gleichzeitig ist die Erweiterung des Kontextfensters in LLMs durch Post-Pretraining sehr ressourcenintensiv. Um dies zu bewältigen, stellen wir **LongRecipe** vor, eine effiziente Schulungsstrategie zur Erweiterung des Kontextfensters von LLMs, einschließlich einer wirkungsvollen Token-Analyse, einer Positionsindex-Transformation und Schulungsoptimierungsstrategien. Es simuliert lange Sequenzeingaben, während die Schulungseffizienz aufrechterhalten wird und das Verständnis des Modells für weitreichende Abhängigkeiten signifikant verbessert wird. Experimente mit drei Arten von LLMs zeigen, dass LongRecipe lange Sequenzen nutzen kann, während nur 30 % der Zielkontextfenstergröße benötigt werden und die Rechenressourcen für das Training um über 85 % im Vergleich zum Training mit vollständiger Sequenz reduziert werden. Darüber hinaus bewahrt LongRecipe auch die Fähigkeiten des ursprünglichen LLMs bei allgemeinen Aufgaben. Letztendlich *können wir das effektive Kontextfenster von Open-Source LLMs von 8k auf 128k erweitern und eine Leistung erzielen, die GPT-4 nahekommt, mit nur einem Tag dediziertem Training unter Verwendung einer einzelnen GPU mit 80G Speicher.* Unser Code ist unter folgendem [Link](https://github.com/zhiyuanhubj/LongRecipe) verfügbar.
English
Large language models (LLMs) face significant challenges in handling long-context tasks because of their limited effective context window size during pretraining, which restricts their ability to generalize over extended sequences. Meanwhile, extending the context window in LLMs through post-pretraining is highly resource-intensive. To address this, we introduce **LongRecipe**, an efficient training strategy for extending the context window of LLMs, including impactful token analysis, position index transformation, and training optimization strategies. It simulates long-sequence inputs while maintaining training efficiency and significantly improves the model's understanding of long-range dependencies. Experiments on three types of LLMs show that LongRecipe can utilize long sequences while requiring only 30% of the target context window size, and reduces computational training resource over 85% compared to full sequence training. Furthermore, LongRecipe also preserves the original LLM's capabilities in general tasks. Ultimately, *we can extend the effective context window of open-source LLMs from 8k to 128k, achieving performance close to GPT-4 with just one day of dedicated training using a single GPU with 80G memory.* Our code is released at the [link](https://github.com/zhiyuanhubj/LongRecipe).

Summary

AI-Generated Summary

PDF422November 16, 2024