Extensión de la Ventana de Contexto en Modelos de Lenguaje de Gran Escala mediante Interpolación Posicional
Extending Context Window of Large Language Models via Positional Interpolation
June 27, 2023
Autores: Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian
cs.AI
Resumen
Presentamos la Interpolación de Posición (PI), que extiende los tamaños de ventana de contexto de modelos de lenguaje preentrenados basados en RoPE, como los modelos LLaMA, hasta 32768 con un ajuste fino mínimo (dentro de 1000 pasos), mientras demuestra resultados empíricos sólidos en diversas tareas que requieren contexto extenso, incluyendo la recuperación de claves, modelado de lenguaje y resumen de documentos largos desde LLaMA 7B hasta 65B. Además, el modelo extendido mediante Interpolación de Posición conserva relativamente bien la calidad en tareas dentro de su ventana de contexto original. Para lograr este objetivo, la Interpolación de Posición reduce linealmente los índices de posición de entrada para que coincidan con el tamaño original de la ventana de contexto, en lugar de extrapolar más allá de la longitud de contexto entrenada, lo que podría generar puntuaciones de atención catastróficamente altas que arruinarían por completo el mecanismo de auto-atención. Nuestro estudio teórico muestra que el límite superior de la interpolación es al menos ∼600 veces menor que el de la extrapolación, lo que demuestra aún más su estabilidad. Los modelos extendidos mediante Interpolación de Posición conservan su arquitectura original y pueden reutilizar la mayoría de las optimizaciones e infraestructuras preexistentes.
English
We present Position Interpolation (PI) that extends the context window sizes
of RoPE-based pretrained LLMs such as LLaMA models to up to 32768 with minimal
fine-tuning (within 1000 steps), while demonstrating strong empirical results
on various tasks that require long context, including passkey retrieval,
language modeling, and long document summarization from LLaMA 7B to 65B.
Meanwhile, the extended model by Position Interpolation preserve quality
relatively well on tasks within its original context window. To achieve this
goal, Position Interpolation linearly down-scales the input position indices to
match the original context window size, rather than extrapolating beyond the
trained context length which may lead to catastrophically high attention scores
that completely ruin the self-attention mechanism. Our theoretical study shows
that the upper bound of interpolation is at least sim 600 times smaller
than that of extrapolation, further demonstrating its stability. Models
extended via Position Interpolation retain its original architecture and can
reuse most pre-existing optimization and infrastructure.