LongRoPE2: Nahezu verlustfreie Skalierung des Kontextfensters für LLMs
LongRoPE2: Near-Lossless LLM Context Window Scaling
February 27, 2025
Autoren: Ning Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang
cs.AI
Zusammenfassung
LongRoPE2 ist ein neuartiger Ansatz, der das effektive Kontextfenster vortrainierter großer Sprachmodelle (LLMs) auf die Zielgröße erweitert, während die Leistung auf dem ursprünglichen kürzeren Kontextfenster erhalten bleibt. Dies wird durch drei Beiträge erreicht: (1) eine Hypothese, dass unzureichendes Training in höheren RoPE-Dimensionen zu den anhaltenden Out-of-Distribution (OOD)-Problemen beiträgt, die bei bestehenden Methoden beobachtet werden; (2) ein effektiver RoPE-Reskalierungsalgorithmus, der eine evolutionäre Suche nutzt, die durch „Needle-driven“-Perplexität geleitet wird, um das Problem des unzureichenden Trainings zu adressieren; (3) ein gemischtes Kontextfenster-Trainingsansatz, der die Modellgewichte feinabstimmt, um reskalierte RoPE für lange Kontextsequenzen zu übernehmen, während die Kurzkontextleistung mit der ursprünglichen RoPE erhalten bleibt. Umfangreiche Experimente mit LLaMA3-8B und Phi3-mini-3.8B über verschiedene Benchmarks bestätigen die Hypothese und demonstrieren die Wirksamkeit von LongRoPE2. Bemerkenswerterweise erweitert LongRoPE2 LLaMA3-8B, um eine effektive Kontextlänge von 128K zu erreichen, während über 98,5 % der Kurzkontextleistung erhalten bleiben, wobei nur 10B Tokens verwendet werden – 80-mal weniger als der Ansatz von Meta, der die Zielkontextlänge nicht erreicht. Der Code wird unter https://github.com/microsoft/LongRoPE verfügbar sein.
English
LongRoPE2 is a novel approach that extends the effective context window of
pre-trained large language models (LLMs) to the target length, while preserving
the performance on the original shorter context window. This is achieved by
three contributions: (1) a hypothesis that insufficient training in higher RoPE
dimensions contributes to the persistent out-of-distribution (OOD) issues
observed in existing methods; (2) an effective RoPE rescaling algorithm that
adopts evolutionary search guided by "needle-driven" perplexity to address the
insufficient training problem; (3) a mixed context window training approach
that fine-tunes model weights to adopt rescaled RoPE for long-context sequences
while preserving the short-context performance with the original RoPE.
Extensive experiments on LLaMA3-8B and Phi3-mini-3.8B across various benchmarks
validate the hypothesis and demonstrate the effectiveness of LongRoPE2.
Remarkably, LongRoPE2 extends LLaMA3-8B to achieve a 128K effective context
length while retaining over 98.5% of short-context performance, using only 10B
tokens -- 80x fewer than Meta's approach, which fails to reach the target
effective context length. Code will be available at
https://github.com/microsoft/LongRoPE.Summary
AI-Generated Summary