YaRN: Extensión Eficiente de la Ventana de Contexto en Modelos de Lenguaje de Gran Escala

YaRN: Efficient Context Window Extension of Large Language Models

August 31, 2023
Autores: Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole
cs.AI

Resumen

Los Embeddings de Posición Rotacional (RoPE, por sus siglas en inglés) han demostrado ser efectivos para codificar información posicional en modelos de lenguaje basados en transformadores. Sin embargo, estos modelos no logran generalizar más allá de la longitud de secuencia con la que fueron entrenados. Presentamos YaRN (Yet another RoPE extensioN method), un método eficiente en términos de cómputo para extender la ventana de contexto de dichos modelos, que requiere 10 veces menos tokens y 2.5 veces menos pasos de entrenamiento que métodos anteriores. Utilizando YaRN, demostramos que los modelos LLaMA pueden utilizar y extrapolar efectivamente a longitudes de contexto mucho mayores de lo que permitiría su preentrenamiento original, superando además el estado del arte en la extensión de ventanas de contexto. Además, mostramos que YaRN exhibe la capacidad de extrapolar más allá del contexto limitado de un conjunto de datos de ajuste fino. Publicamos los puntos de control de Llama 2 7B/13B ajustados mediante YaRN con ventanas de contexto de 64k y 128k en https://github.com/jquesnelle/yarn.
English
Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned using YaRN with 64k and 128k context windows at https://github.com/jquesnelle/yarn
PDF714December 15, 2024