Trainingsfreie Skalierung von Large Language Models für lange Kontexte
Training-Free Long-Context Scaling of Large Language Models
February 27, 2024
Autoren: Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
cs.AI
Zusammenfassung
Die Fähigkeit von Large Language Models (LLMs), kohärenten Text zu verarbeiten und zu generieren, wird deutlich geschwächt, wenn die Anzahl der Eingabe-Tokens ihre Vortrainingslänge überschreitet. Angesichts des hohen Aufwands für das Feinabstimmen großskaliger Modelle mit längeren Sequenzen schlagen wir Dual Chunk Attention (DCA) vor, das Llama2 70B ermöglicht, Kontextfenster von mehr als 100.000 Tokens ohne kontinuierliches Training zu unterstützen. Indem die Aufmerksamkeitsberechnung für lange Sequenzen in chunk-basierte Module zerlegt wird, gelingt es DCA effektiv, die relative Positionsinformation von Tokens innerhalb desselben Chunks (Intra-Chunk) und über verschiedene Chunks hinweg (Inter-Chunk) zu erfassen, sowie sich nahtlos mit Flash Attention zu integrieren. Neben seiner beeindruckenden Extrapolationsfähigkeit erreicht DCA bei praktischen Aufgaben mit langem Kontext eine Leistung, die mit der von feinabgestimmten Modellen vergleichbar oder sogar besser ist. Im Vergleich zu proprietären Modellen erreicht unser trainingsfreies 70B-Modell 94 % der Leistung von gpt-3.5-16k, was darauf hindeutet, dass es eine praktikable Open-Source-Alternative darstellt. Der gesamte Code und die in dieser Arbeit verwendeten Daten sind unter https://github.com/HKUNLP/ChunkLlama veröffentlicht.
English
The ability of Large Language Models (LLMs) to process and generate coherent
text is markedly weakened when the number of input tokens exceeds their
pretraining length. Given the expensive overhead of finetuning large-scale
models with longer sequences, we propose Dual Chunk Attention (DCA), which
enables Llama2 70B to support context windows of more than 100k tokens without
continual training. By decomposing the attention computation for long sequences
into chunk-based modules, DCA manages to effectively capture the relative
positional information of tokens within the same chunk (Intra-Chunk) and across
distinct chunks (Inter-Chunk), as well as integrates seamlessly with Flash
Attention. In addition to its impressive extrapolation capability, DCA achieves
performance on practical long-context tasks that is comparable to or even
better than that of finetuned models. When compared with proprietary models,
our training-free 70B model attains 94% of the performance of gpt-3.5-16k,
indicating it is a viable open-source alternative. All code and data used in
this work are released at https://github.com/HKUNLP/ChunkLlama.