Resonance RoPE : Amélioration de la généralisation de la longueur de contexte dans les grands modèles de langage
Resonance RoPE: Improving Context Length Generalization of Large Language Models
February 29, 2024
Auteurs: Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu
cs.AI
Résumé
Cet article aborde le défi des scénarios d'entraînement court-test long (TSTL) dans les modèles de langage de grande taille (LLMs) équipés d'encodage positionnel rotatif (RoPE), où les modèles pré-entraînés sur des séquences plus courtes rencontrent des difficultés avec les positions de tokens hors distribution (OOD) dans des séquences plus longues. Nous introduisons Resonance RoPE, une nouvelle approche conçue pour réduire l'écart de généralisation dans les scénarios TSTL en affinant l'interpolation des caractéristiques RoPE pour les positions OOD, améliorant ainsi significativement les performances du modèle sans coût de calcul supplémentaire en ligne. Par ailleurs, nous présentons PosGen, un nouveau benchmark synthétique spécifiquement conçu pour l'analyse fine des comportements dans les scénarios TSTL, visant à isoler la difficulté croissante de génération de tokens sur des contextes longs des défis liés à la reconnaissance de nouvelles positions de tokens. Nos expériences sur des tâches synthétiques montrent qu'après l'application de Resonance RoPE, les Transformers reconnaissent mieux et plus robustement les positions OOD. Nos expériences approfondies sur les LLMs montrent également une performance supérieure après l'application de Resonance RoPE à la méthode actuelle de mise à l'échelle RoPE, YaRN, tant sur les tâches de modélisation du langage en amont que sur une variété d'applications en aval impliquant des textes longs.
English
This paper addresses the challenge of train-short-test-long (TSTL) scenarios
in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE),
where models pre-trained on shorter sequences face difficulty with
out-of-distribution (OOD) token positions in longer sequences. We introduce
Resonance RoPE, a novel approach designed to narrow the generalization gap in
TSTL scenarios by refining the interpolation of RoPE features for OOD
positions, significantly improving the model performance without additional
online computational costs. Furthermore, we present PosGen, a new synthetic
benchmark specifically designed for fine-grained behavior analysis in TSTL
scenarios, aiming to isolate the constantly increasing difficulty of token
generation on long contexts from the challenges of recognizing new token
positions. Our experiments on synthetic tasks show that after applying
Resonance RoPE, Transformers recognize OOD position better and more robustly.
Our extensive LLM experiments also show superior performance after applying
Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on
both upstream language modeling tasks and a variety of downstream long-text
applications.Summary
AI-Generated Summary