YaRN: Effiziente Erweiterung des Kontextfensters für große Sprachmodelle
YaRN: Efficient Context Window Extension of Large Language Models
August 31, 2023
Autoren: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
cs.AI
Zusammenfassung
Rotary Position Embeddings (RoPE) haben sich als effektive Methode zur Kodierung von Positionsinformationen in transformer-basierten Sprachmodellen erwiesen. Diese Modelle scheitern jedoch daran, über die Sequenzlänge hinaus zu generalisieren, auf der sie trainiert wurden. Wir stellen YaRN (Yet another RoPE extensioN method) vor, eine recheneffiziente Methode zur Erweiterung des Kontextfensters solcher Modelle, die 10-mal weniger Tokens und 2,5-mal weniger Trainingsschritte als bisherige Methoden erfordert. Mit YaRN zeigen wir, dass LLaMA-Modelle Kontextlängen effektiv nutzen und extrapolieren können, die weit über ihre ursprüngliche Vortrainingskapazität hinausgehen, wobei sie gleichzeitig den bisherigen Stand der Technik bei der Kontextfenstererweiterung übertreffen. Darüber hinaus demonstrieren wir, dass YaRN die Fähigkeit besitzt, über den begrenzten Kontext eines Fine-Tuning-Datensatzes hinaus zu extrapolieren. Wir veröffentlichen die Checkpoints von Llama 2 7B/13B, die mit YaRN auf 64k und 128k Kontextfenster feinabgestimmt wurden, unter https://github.com/jquesnelle/yarn.
English
Rotary Position Embeddings (RoPE) have been shown to effectively encode
positional information in transformer-based language models. However, these
models fail to generalize past the sequence length they were trained on. We
present YaRN (Yet another RoPE extensioN method), a compute-efficient method to
extend the context window of such models, requiring 10x less tokens and 2.5x
less training steps than previous methods. Using YaRN, we show that LLaMA
models can effectively utilize and extrapolate to context lengths much longer
than their original pre-training would allow, while also surpassing previous
the state-of-the-art at context window extension. In addition, we demonstrate
that YaRN exhibits the capability to extrapolate beyond the limited context of
a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned
using YaRN with 64k and 128k context windows at
https://github.com/jquesnelle/yarn