ChatPaper.aiChatPaper

LongRoPE2: Schalen van LLM-contextvenster met bijna verliesloze nabijheid

LongRoPE2: Near-Lossless LLM Context Window Scaling

February 27, 2025
Auteurs: Ning Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang
cs.AI

Samenvatting

LongRoPE2 is een nieuw benadering die het effectieve contextvenster van vooraf getrainde grote taalmodellen (LLM's) uitbreidt naar de doellengte, terwijl de prestaties op het oorspronkelijke kortere contextvenster behouden blijven. Dit wordt bereikt door drie bijdragen: (1) een hypothese dat onvoldoende training in hogere RoPE-dimensies bijdraagt aan de aanhoudende out-of-distribution (OOD) problemen die worden waargenomen in bestaande methoden; (2) een effectief RoPE-herschalingsalgoritme dat evolutionaire zoekopdrachten overneemt, geleid door "naaldgestuurde" perplexiteit om het probleem van onvoldoende training aan te pakken; (3) een gemengde contextvenstertrainingsbenadering die modelgewichten fijnafstemt om aangepaste RoPE aan te nemen voor lange-contextreeksen, terwijl de prestaties met korte context met de oorspronkelijke RoPE behouden blijven. Uitgebreide experimenten op LLaMA3-8B en Phi3-mini-3.8B over verschillende benchmarks bevestigen de hypothese en tonen de effectiviteit van LongRoPE2 aan. Opmerkelijk genoeg breidt LongRoPE2 LLaMA3-8B uit om een effectieve contextlengte van 128K te bereiken, terwijl meer dan 98,5% van de prestaties met kort context behouden blijft, met slechts 10B tokens - 80x minder dan de benadering van Meta, die er niet in slaagt om de beoogde effectieve contextlengte te bereiken. De code zal beschikbaar zijn op https://github.com/microsoft/LongRoPE.
English
LongRoPE2 is a novel approach that extends the effective context window of pre-trained large language models (LLMs) to the target length, while preserving the performance on the original shorter context window. This is achieved by three contributions: (1) a hypothesis that insufficient training in higher RoPE dimensions contributes to the persistent out-of-distribution (OOD) issues observed in existing methods; (2) an effective RoPE rescaling algorithm that adopts evolutionary search guided by "needle-driven" perplexity to address the insufficient training problem; (3) a mixed context window training approach that fine-tunes model weights to adopt rescaled RoPE for long-context sequences while preserving the short-context performance with the original RoPE. Extensive experiments on LLaMA3-8B and Phi3-mini-3.8B across various benchmarks validate the hypothesis and demonstrate the effectiveness of LongRoPE2. Remarkably, LongRoPE2 extends LLaMA3-8B to achieve a 128K effective context length while retaining over 98.5% of short-context performance, using only 10B tokens -- 80x fewer than Meta's approach, which fails to reach the target effective context length. Code will be available at https://github.com/microsoft/LongRoPE.

Summary

AI-Generated Summary

PDF382February 28, 2025