Extensión de la Ventana de Contexto de los LLMs con 100 Muestras

Resumen

Se sabe que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen una capacidad limitada de extrapolación más allá de su ventana de contexto preentrenada, lo que restringe su aplicación en tareas posteriores con entradas extensas. Estudios recientes han buscado extender la ventana de contexto de los LLMs modificando el método de codificación de posición conocido como rotary position embedding (RoPE), adoptado por modelos populares como LLaMA, PaLM y GPT-NeoX. Sin embargo, trabajos previos como Position Interpolation (PI) y YaRN son intensivos en recursos y carecen de experimentos comparativos para evaluar su aplicabilidad. En este trabajo, identificamos la necesidad inherente de que la entropía de atención de los LLMs (es decir, la entropía de la información de los puntajes de atención) mantenga estabilidad e introducimos una extensión novedosa de RoPE que combina el ajuste de la frecuencia base de RoPE y la escalación de los logits de atención para ayudar a los LLMs a adaptarse eficientemente a una ventana de contexto más amplia. Validamos la superioridad de nuestro método tanto en el rendimiento de ajuste fino como en la robustez en diferentes tamaños de ventana de contexto en diversas tareas que demandan contexto. Notablemente, nuestro método extiende la ventana de contexto de LLaMA-2-7B-Chat a 16,384 con solo 100 muestras y 6 pasos de entrenamiento, demostrando una eficiencia extraordinaria. Finalmente, también exploramos cómo las composiciones de datos y los planes de entrenamiento afectan la extensión de la ventana de contexto para tareas específicas posteriores, sugiriendo que el ajuste fino de LLMs con conversaciones extensas es un buen punto de partida. Publicamos nuestro código y datos de SFT en https://github.com/GAIR-NLP/Entropy-ABF.

English

Large Language Models (LLMs) are known to have limited extrapolation ability beyond their pre-trained context window, constraining their application in downstream tasks with lengthy inputs. Recent studies have sought to extend LLMs' context window by modifying rotary position embedding (RoPE), a popular position encoding method adopted by well-known LLMs such as LLaMA, PaLM, and GPT-NeoX. However, prior works like Position Interpolation (PI) and YaRN are resource-intensive and lack comparative experiments to assess their applicability. In this work, we identify the inherent need for LLMs' attention entropy (i.e. the information entropy of attention scores) to maintain stability and introduce a novel extension to RoPE which combines adjusting RoPE's base frequency and scaling the attention logits to help LLMs efficiently adapt to a larger context window. We validate the superiority of our method in both fine-tuning performance and robustness across different context window sizes on various context-demanding tasks. Notably, our method extends the context window of LLaMA-2-7B-Chat to 16,384 with only 100 samples and 6 training steps, showcasing extraordinary efficiency. Finally, we also explore how data compositions and training curricula affect context window extension for specific downstream tasks, suggesting fine-tuning LLMs with lengthy conversations as a good starting point. We release our code and SFT data at https://github.com/GAIR-NLP/Entropy-ABF.

Extensión de la Ventana de Contexto de los LLMs con 100 Muestras

Extending LLMs' Context Window with 100 Samples

Resumen

Support