YaRN: Extensión Eficiente de la Ventana de Contexto en Modelos de Lenguaje de Gran Escala
YaRN: Efficient Context Window Extension of Large Language Models
August 31, 2023
Autores: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
cs.AI
Resumen
Los Embeddings de Posición Rotacional (RoPE, por sus siglas en inglés) han demostrado ser efectivos para codificar información posicional en modelos de lenguaje basados en transformadores. Sin embargo, estos modelos no logran generalizar más allá de la longitud de secuencia con la que fueron entrenados. Presentamos YaRN (Yet another RoPE extensioN method), un método eficiente en términos de cómputo para extender la ventana de contexto de dichos modelos, que requiere 10 veces menos tokens y 2.5 veces menos pasos de entrenamiento que métodos anteriores. Utilizando YaRN, demostramos que los modelos LLaMA pueden utilizar y extrapolar efectivamente a longitudes de contexto mucho mayores de lo que permitiría su preentrenamiento original, superando además el estado del arte en la extensión de ventanas de contexto. Además, mostramos que YaRN exhibe la capacidad de extrapolar más allá del contexto limitado de un conjunto de datos de ajuste fino. Publicamos los puntos de control de Llama 2 7B/13B ajustados mediante YaRN con ventanas de contexto de 64k y 128k en https://github.com/jquesnelle/yarn.
English
Rotary Position Embeddings (RoPE) have been shown to effectively encode
positional information in transformer-based language models. However, these
models fail to generalize past the sequence length they were trained on. We
present YaRN (Yet another RoPE extensioN method), a compute-efficient method to
extend the context window of such models, requiring 10x less tokens and 2.5x
less training steps than previous methods. Using YaRN, we show that LLaMA
models can effectively utilize and extrapolate to context lengths much longer
than their original pre-training would allow, while also surpassing previous
the state-of-the-art at context window extension. In addition, we demonstrate
that YaRN exhibits the capability to extrapolate beyond the limited context of
a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned
using YaRN with 64k and 128k context windows at
https://github.com/jquesnelle/yarn