ChatPaper.aiChatPaper

Resonance RoPE: Verbesserung der Kontextlängengeneralisierung von großen Sprachmodellen

Resonance RoPE: Improving Context Length Generalization of Large Language Models

February 29, 2024
Autoren: Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu
cs.AI

Zusammenfassung

Diese Arbeit befasst sich mit der Herausforderung von Train-Short-Test-Long (TSTL)-Szenarien in Large Language Models (LLMs), die mit Rotary Position Embedding (RoPE) ausgestattet sind, wobei Modelle, die auf kürzeren Sequenzen vortrainiert wurden, Schwierigkeiten mit Out-of-Distribution (OOD)-Token-Positionen in längeren Sequenzen haben. Wir stellen Resonance RoPE vor, einen neuartigen Ansatz, der darauf abzielt, die Generalisierungslücke in TSTL-Szenarien zu verringern, indem die Interpolation von RoPE-Features für OOD-Positionen verfeinert wird, was die Modellleistung erheblich verbessert, ohne zusätzliche Online-Rechenkosten zu verursachen. Darüber hinaus präsentieren wir PosGen, einen neuen synthetischen Benchmark, der speziell für die feinkörnige Verhaltensanalyse in TSTL-Szenarien entwickelt wurde, um die ständig zunehmende Schwierigkeit der Token-Generierung in langen Kontexten von den Herausforderungen der Erkennung neuer Token-Positionen zu isolieren. Unsere Experimente mit synthetischen Aufgaben zeigen, dass Transformers nach der Anwendung von Resonance RoPE OOD-Positionen besser und robuster erkennen. Unsere umfangreichen LLM-Experimente zeigen ebenfalls eine überlegene Leistung nach der Anwendung von Resonance RoPE auf die derzeit beste RoPE-Skalierungsmethode, YaRN, sowohl bei Upstream-Sprachmodellierungsaufgaben als auch bei einer Vielzahl von Downstream-Langtext-Anwendungen.
English
This paper addresses the challenge of train-short-test-long (TSTL) scenarios in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE), where models pre-trained on shorter sequences face difficulty with out-of-distribution (OOD) token positions in longer sequences. We introduce Resonance RoPE, a novel approach designed to narrow the generalization gap in TSTL scenarios by refining the interpolation of RoPE features for OOD positions, significantly improving the model performance without additional online computational costs. Furthermore, we present PosGen, a new synthetic benchmark specifically designed for fine-grained behavior analysis in TSTL scenarios, aiming to isolate the constantly increasing difficulty of token generation on long contexts from the challenges of recognizing new token positions. Our experiments on synthetic tasks show that after applying Resonance RoPE, Transformers recognize OOD position better and more robustly. Our extensive LLM experiments also show superior performance after applying Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on both upstream language modeling tasks and a variety of downstream long-text applications.
PDF252December 15, 2024