YaRN: Эффективное расширение контекстного окна больших языковых моделей
YaRN: Efficient Context Window Extension of Large Language Models
August 31, 2023
Авторы: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
cs.AI
Аннотация
Вращающиеся позиционные эмбеддинги (RoPE) доказали свою эффективность в кодировании позиционной информации в трансформаторных языковых моделях. Однако такие модели не способны обобщать данные за пределами длины последовательности, на которой они обучались. Мы представляем YaRN (Yet another RoPE extensioN method), вычислительно эффективный метод расширения контекстного окна таких моделей, требующий в 10 раз меньше токенов и в 2,5 раза меньше шагов обучения по сравнению с предыдущими методами. Используя YaRN, мы показываем, что модели LLaMA могут эффективно использовать и экстраполировать на контекстные длины, значительно превышающие те, что были доступны при их исходном предварительном обучении, одновременно превосходя предыдущие достижения в области расширения контекстного окна. Кроме того, мы демонстрируем, что YaRN обладает способностью экстраполировать за пределы ограниченного контекста набора данных для тонкой настройки. Мы публикуем чекпоинты моделей Llama 2 7B/13B, тонко настроенных с использованием YaRN с контекстными окнами 64k и 128k, по адресу https://github.com/jquesnelle/yarn.
English
Rotary Position Embeddings (RoPE) have been shown to effectively encode
positional information in transformer-based language models. However, these
models fail to generalize past the sequence length they were trained on. We
present YaRN (Yet another RoPE extensioN method), a compute-efficient method to
extend the context window of such models, requiring 10x less tokens and 2.5x
less training steps than previous methods. Using YaRN, we show that LLaMA
models can effectively utilize and extrapolate to context lengths much longer
than their original pre-training would allow, while also surpassing previous
the state-of-the-art at context window extension. In addition, we demonstrate
that YaRN exhibits the capability to extrapolate beyond the limited context of
a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned
using YaRN with 64k and 128k context windows at
https://github.com/jquesnelle/yarn