ChatPaper.aiChatPaper

E^2-LLM: Effiziente und extreme Längenerweiterung von Large Language Models

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models

January 13, 2024
Autoren: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
cs.AI

Zusammenfassung

Typischerweise ist das Training von LLMs mit großen Kontextlängen rechenintensiv und erfordert umfangreiche Trainingszeiten sowie GPU-Ressourcen. Bestehende Methoden zur Erweiterung des Kontexts benötigen in der Regel zusätzliche Trainingsverfahren, um entsprechende lange Kontextfenster zu unterstützen, wobei lange Kontextdaten (z.B. 32k) erforderlich sind und hohe GPU-Trainingskosten anfallen. Um die genannten Probleme zu lösen, schlagen wir eine effiziente und extreme Längenerweiterungsmethode für Large Language Models vor, genannt E²-LLM, die nur ein einziges Trainingsverfahren erfordert und die Rechenkosten drastisch reduziert, wodurch auch die Notwendigkeit entfällt, lange Kontextdaten zu sammeln. Konkret bedeutet dies erstens, dass die Trainingsdaten für unser E²-LLM nur eine kurze Länge (z.B. 4k) benötigen, was die Anpassungskosten erheblich reduziert. Zweitens wird das Trainingsverfahren auf dem kurzen Trainingskontextfenster nur einmal durchgeführt, und wir können bei der Inferenz verschiedene Evaluationskontextfenster unterstützen. Drittens führen wir in E²-LLM, basierend auf RoPE-Positions-Einbettungen, zwei verschiedene Augmentationsmethoden für die Skalen- und Positionsindexparameter für verschiedene Trainingsbeispiele ein. Dies zielt darauf ab, das Modell robuster gegenüber den unterschiedlichen relativen Unterschieden zu machen, wenn bei der Inferenz die beliebige Kontextlänge direkt interpoliert wird. Umfassende experimentelle Ergebnisse auf mehreren Benchmark-Datensätzen demonstrieren die Wirksamkeit unseres E²-LLM bei anspruchsvollen Aufgaben mit langem Kontext.
English
Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. Existing long-context extension methods usually need additional training procedures to support corresponding long-context windows, where the long-context training data (e.g., 32k) is needed, and high GPU training costs are assumed. To address the aforementioned issues, we propose an Efficient and Extreme length extension method for Large Language Models, called E 2 -LLM, with only one training procedure and dramatically reduced computation cost, which also removes the need to collect long-context data. Concretely, first, the training data of our E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost greatly. Second, the training procedure on the short training context window is performed only once time, and we can support different evaluation context windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings, we introduce two different augmentation methods on the scale and position index parameters for different samples in training. It aims to make the model more robust to the different relative differences when directly interpolating the arbitrary context length at inference. Comprehensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on challenging long-context tasks.
PDF273December 15, 2024