YaRN : Extension efficace de la fenêtre contextuelle des grands modèles de langage
YaRN: Efficient Context Window Extension of Large Language Models
August 31, 2023
Auteurs: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
cs.AI
Résumé
Les embeddings de position rotatifs (RoPE) se sont avérés efficaces pour encoder l'information positionnelle dans les modèles de langage basés sur des transformeurs. Cependant, ces modèles échouent à généraliser au-delà de la longueur de séquence sur laquelle ils ont été entraînés. Nous présentons YaRN (Yet another RoPE extensioN method), une méthode efficace en termes de calcul pour étendre la fenêtre contextuelle de tels modèles, nécessitant 10 fois moins de tokens et 2,5 fois moins d'étapes d'entraînement que les méthodes précédentes. En utilisant YaRN, nous montrons que les modèles LLaMA peuvent exploiter et extrapoler efficacement à des longueurs de contexte bien supérieures à celles permises par leur pré-entraînement initial, tout en surpassant l'état de l'art précédent en matière d'extension de fenêtre contextuelle. De plus, nous démontrons que YaRN possède la capacité d'extrapoler au-delà du contexte limité d'un jeu de données de fine-tuning. Nous publions les points de contrôle de Llama 2 7B/13B affinés à l'aide de YaRN avec des fenêtres contextuelles de 64k et 128k sur https://github.com/jquesnelle/yarn.
English
Rotary Position Embeddings (RoPE) have been shown to effectively encode
positional information in transformer-based language models. However, these
models fail to generalize past the sequence length they were trained on. We
present YaRN (Yet another RoPE extensioN method), a compute-efficient method to
extend the context window of such models, requiring 10x less tokens and 2.5x
less training steps than previous methods. Using YaRN, we show that LLaMA
models can effectively utilize and extrapolate to context lengths much longer
than their original pre-training would allow, while also surpassing previous
the state-of-the-art at context window extension. In addition, we demonstrate
that YaRN exhibits the capability to extrapolate beyond the limited context of
a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned
using YaRN with 64k and 128k context windows at
https://github.com/jquesnelle/yarn