LongRoPE2: Nahezu verlustfreie Skalierung des Kontextfensters für LLMs

papers.abstract

LongRoPE2 ist ein neuartiger Ansatz, der das effektive Kontextfenster vortrainierter großer Sprachmodelle (LLMs) auf die Zielgröße erweitert, während die Leistung auf dem ursprünglichen kürzeren Kontextfenster erhalten bleibt. Dies wird durch drei Beiträge erreicht: (1) eine Hypothese, dass unzureichendes Training in höheren RoPE-Dimensionen zu den anhaltenden Out-of-Distribution (OOD)-Problemen beiträgt, die bei bestehenden Methoden beobachtet werden; (2) ein effektiver RoPE-Reskalierungsalgorithmus, der eine evolutionäre Suche nutzt, die durch „Needle-driven“-Perplexität geleitet wird, um das Problem des unzureichenden Trainings zu adressieren; (3) ein gemischtes Kontextfenster-Trainingsansatz, der die Modellgewichte feinabstimmt, um reskalierte RoPE für lange Kontextsequenzen zu übernehmen, während die Kurzkontextleistung mit der ursprünglichen RoPE erhalten bleibt. Umfangreiche Experimente mit LLaMA3-8B und Phi3-mini-3.8B über verschiedene Benchmarks bestätigen die Hypothese und demonstrieren die Wirksamkeit von LongRoPE2. Bemerkenswerterweise erweitert LongRoPE2 LLaMA3-8B, um eine effektive Kontextlänge von 128K zu erreichen, während über 98,5 % der Kurzkontextleistung erhalten bleiben, wobei nur 10B Tokens verwendet werden – 80-mal weniger als der Ansatz von Meta, der die Zielkontextlänge nicht erreicht. Der Code wird unter https://github.com/microsoft/LongRoPE verfügbar sein.

English

LongRoPE2 is a novel approach that extends the effective context window of pre-trained large language models (LLMs) to the target length, while preserving the performance on the original shorter context window. This is achieved by three contributions: (1) a hypothesis that insufficient training in higher RoPE dimensions contributes to the persistent out-of-distribution (OOD) issues observed in existing methods; (2) an effective RoPE rescaling algorithm that adopts evolutionary search guided by "needle-driven" perplexity to address the insufficient training problem; (3) a mixed context window training approach that fine-tunes model weights to adopt rescaled RoPE for long-context sequences while preserving the short-context performance with the original RoPE. Extensive experiments on LLaMA3-8B and Phi3-mini-3.8B across various benchmarks validate the hypothesis and demonstrate the effectiveness of LongRoPE2. Remarkably, LongRoPE2 extends LLaMA3-8B to achieve a 128K effective context length while retaining over 98.5% of short-context performance, using only 10B tokens -- 80x fewer than Meta's approach, which fails to reach the target effective context length. Code will be available at https://github.com/microsoft/LongRoPE.

LongRoPE2: Nahezu verlustfreie Skalierung des Kontextfensters für LLMs

LongRoPE2: Near-Lossless LLM Context Window Scaling

papers.abstract

Support