Resonance RoPE : Amélioration de la généralisation de la longueur de contexte dans les grands modèles de langage

Résumé

Cet article aborde le défi des scénarios d'entraînement court-test long (TSTL) dans les modèles de langage de grande taille (LLMs) équipés d'encodage positionnel rotatif (RoPE), où les modèles pré-entraînés sur des séquences plus courtes rencontrent des difficultés avec les positions de tokens hors distribution (OOD) dans des séquences plus longues. Nous introduisons Resonance RoPE, une nouvelle approche conçue pour réduire l'écart de généralisation dans les scénarios TSTL en affinant l'interpolation des caractéristiques RoPE pour les positions OOD, améliorant ainsi significativement les performances du modèle sans coût de calcul supplémentaire en ligne. Par ailleurs, nous présentons PosGen, un nouveau benchmark synthétique spécifiquement conçu pour l'analyse fine des comportements dans les scénarios TSTL, visant à isoler la difficulté croissante de génération de tokens sur des contextes longs des défis liés à la reconnaissance de nouvelles positions de tokens. Nos expériences sur des tâches synthétiques montrent qu'après l'application de Resonance RoPE, les Transformers reconnaissent mieux et plus robustement les positions OOD. Nos expériences approfondies sur les LLMs montrent également une performance supérieure après l'application de Resonance RoPE à la méthode actuelle de mise à l'échelle RoPE, YaRN, tant sur les tâches de modélisation du langage en amont que sur une variété d'applications en aval impliquant des textes longs.

English

This paper addresses the challenge of train-short-test-long (TSTL) scenarios in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE), where models pre-trained on shorter sequences face difficulty with out-of-distribution (OOD) token positions in longer sequences. We introduce Resonance RoPE, a novel approach designed to narrow the generalization gap in TSTL scenarios by refining the interpolation of RoPE features for OOD positions, significantly improving the model performance without additional online computational costs. Furthermore, we present PosGen, a new synthetic benchmark specifically designed for fine-grained behavior analysis in TSTL scenarios, aiming to isolate the constantly increasing difficulty of token generation on long contexts from the challenges of recognizing new token positions. Our experiments on synthetic tasks show that after applying Resonance RoPE, Transformers recognize OOD position better and more robustly. Our extensive LLM experiments also show superior performance after applying Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on both upstream language modeling tasks and a variety of downstream long-text applications.

Resonance RoPE : Amélioration de la généralisation de la longueur de contexte dans les grands modèles de langage

Resonance RoPE: Improving Context Length Generalization of Large Language Models

Résumé

Summary

Support