E^2-LLM: Effiziente und extreme Längenerweiterung von Large Language Models
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
January 13, 2024
Autoren: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
cs.AI
Zusammenfassung
Typischerweise ist das Training von LLMs mit großen Kontextlängen rechenintensiv und erfordert umfangreiche Trainingszeiten sowie GPU-Ressourcen. Bestehende Methoden zur Erweiterung des Kontexts benötigen in der Regel zusätzliche Trainingsverfahren, um entsprechende lange Kontextfenster zu unterstützen, wobei lange Kontextdaten (z.B. 32k) erforderlich sind und hohe GPU-Trainingskosten anfallen. Um die genannten Probleme zu lösen, schlagen wir eine effiziente und extreme Längenerweiterungsmethode für Large Language Models vor, genannt E²-LLM, die nur ein einziges Trainingsverfahren erfordert und die Rechenkosten drastisch reduziert, wodurch auch die Notwendigkeit entfällt, lange Kontextdaten zu sammeln. Konkret bedeutet dies erstens, dass die Trainingsdaten für unser E²-LLM nur eine kurze Länge (z.B. 4k) benötigen, was die Anpassungskosten erheblich reduziert. Zweitens wird das Trainingsverfahren auf dem kurzen Trainingskontextfenster nur einmal durchgeführt, und wir können bei der Inferenz verschiedene Evaluationskontextfenster unterstützen. Drittens führen wir in E²-LLM, basierend auf RoPE-Positions-Einbettungen, zwei verschiedene Augmentationsmethoden für die Skalen- und Positionsindexparameter für verschiedene Trainingsbeispiele ein. Dies zielt darauf ab, das Modell robuster gegenüber den unterschiedlichen relativen Unterschieden zu machen, wenn bei der Inferenz die beliebige Kontextlänge direkt interpoliert wird. Umfassende experimentelle Ergebnisse auf mehreren Benchmark-Datensätzen demonstrieren die Wirksamkeit unseres E²-LLM bei anspruchsvollen Aufgaben mit langem Kontext.
English
Typically, training LLMs with long context sizes is computationally
expensive, requiring extensive training hours and GPU resources. Existing
long-context extension methods usually need additional training procedures to
support corresponding long-context windows, where the long-context training
data (e.g., 32k) is needed, and high GPU training costs are assumed. To address
the aforementioned issues, we propose an Efficient and Extreme length extension
method for Large Language Models, called E 2 -LLM, with only one training
procedure and dramatically reduced computation cost, which also removes the
need to collect long-context data. Concretely, first, the training data of our
E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost
greatly. Second, the training procedure on the short training context window is
performed only once time, and we can support different evaluation context
windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings,
we introduce two different augmentation methods on the scale and position index
parameters for different samples in training. It aims to make the model more
robust to the different relative differences when directly interpolating the
arbitrary context length at inference. Comprehensive experimental results on
multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on
challenging long-context tasks.