CLEX: Kontinuierliche Längenextrapolation für große Sprachmodelle
CLEX: Continuous Length Extrapolation for Large Language Models
October 25, 2023
Autoren: Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing
cs.AI
Zusammenfassung
Transformer-basierte Large Language Models (LLMs) sind wegweisende Fortschritte in vielen Aufgaben der natürlichen Sprachverarbeitung, doch ihre außergewöhnlichen Fähigkeiten sind durch das vordefinierte Kontextfenster des Transformers begrenzt. Position Embedding (PE)-Skalierungsmethoden, die zwar effektiv das Kontextfenster auf eine bestimmte Länge erweitern, zeigen entweder deutliche Einschränkungen in ihren Extrapolationsfähigkeiten oder opfern teilweise die Leistung innerhalb des Kontextfensters. Längenextrapolationsmethoden, obwohl theoretisch in der Lage, das Kontextfenster über die Trainingssequenzlänge hinaus zu erweitern, schneiden in praktischen Anwendungen mit langem Kontext oft schlecht ab. Um diese Herausforderungen zu bewältigen, schlagen wir Continuous Length EXtrapolation (CLEX) für LLMs vor. Wir verallgemeinern die PE-Skalierungsansätze, um die kontinuierliche Dynamik durch gewöhnliche Differentialgleichungen über den Längenskalierungsfaktor zu modellieren und überwinden so die Beschränkungen aktueller PE-Skalierungsmethoden, die für spezifische Längen entwickelt wurden. Darüber hinaus erleichtert CLEX durch die Erweiterung der Dynamik auf gewünschte Kontextlängen, die über die Trainingssequenzlänge hinausgehen, die Längenextrapolation mit beeindruckender Leistung in praktischen Aufgaben. Wir zeigen, dass CLEX nahtlos in LLMs integriert werden kann, die mit Rotary Position Embedding ausgestattet sind, wie z.B. LLaMA und GPT-NeoX, ohne nennenswerte Auswirkungen auf die Trainings- und Inferenzlatenz. Experimentelle Ergebnisse zeigen, dass CLEX das Kontextfenster effektiv auf über das 4-fache oder fast das 8-fache der Trainingslänge erweitern kann, ohne dass die Leistung beeinträchtigt wird. Darüber hinaus zeigt unser Modell, das auf einer Länge von 4k trainiert wurde, bei der Bewertung auf dem praktischen LongBench-Benchmark eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Open-Source-Modellen, die auf Kontextlängen von bis zu 32k trainiert wurden.
English
Transformer-based Large Language Models (LLMs) are pioneering advances in
many natural language processing tasks, however, their exceptional capabilities
are restricted within the preset context window of Transformer. Position
Embedding (PE) scaling methods, while effective in extending the context window
to a specific length, demonstrate either notable limitations in their
extrapolation abilities or sacrificing partial performance within the context
window. Length extrapolation methods, although theoretically capable of
extending the context window beyond the training sequence length, often
underperform in practical long-context applications. To address these
challenges, we propose Continuous Length EXtrapolation (CLEX) for LLMs. We
generalise the PE scaling approaches to model the continuous dynamics by
ordinary differential equations over the length scaling factor, thereby
overcoming the constraints of current PE scaling methods designed for specific
lengths. Moreover, by extending the dynamics to desired context lengths beyond
the training sequence length, CLEX facilitates the length extrapolation with
impressive performance in practical tasks. We demonstrate that CLEX can be
seamlessly incorporated into LLMs equipped with Rotary Position Embedding, such
as LLaMA and GPT-NeoX, with negligible impact on training and inference
latency. Experimental results reveal that CLEX can effectively extend the
context window to over 4x or almost 8x training length, with no deterioration
in performance. Furthermore, when evaluated on the practical LongBench
benchmark, our model trained on a 4k length exhibits competitive performance
against state-of-the-art open-source models trained on context lengths up to
32k.