Resonance RoPE: Mejorando la Generalización de Longitud de Contexto en Modelos de Lenguaje a Gran Escala
Resonance RoPE: Improving Context Length Generalization of Large Language Models
February 29, 2024
Autores: Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu
cs.AI
Resumen
Este artículo aborda el desafío de los escenarios de entrenamiento-corto-prueba-larga (TSTL, por sus siglas en inglés) en Modelos de Lenguaje de Gran Escala (LLMs) equipados con Incrustación de Posición Rotatoria (RoPE), donde los modelos preentrenados en secuencias más cortas enfrentan dificultades con posiciones de tokens fuera de distribución (OOD) en secuencias más largas. Introducimos Resonance RoPE, un enfoque novedoso diseñado para reducir la brecha de generalización en escenarios TSTL mediante el refinamiento de la interpolación de características RoPE para posiciones OOD, mejorando significativamente el rendimiento del modelo sin costos computacionales adicionales en línea. Además, presentamos PosGen, un nuevo benchmark sintético específicamente diseñado para el análisis de comportamiento detallado en escenarios TSTL, con el objetivo de aislar la dificultad constantemente creciente de la generación de tokens en contextos largos de los desafíos de reconocer nuevas posiciones de tokens. Nuestros experimentos en tareas sintéticas muestran que, tras aplicar Resonance RoPE, los Transformers reconocen las posiciones OOD de manera más efectiva y robusta. Nuestros extensos experimentos con LLMs también muestran un rendimiento superior después de aplicar Resonance RoPE al método actual de escalado RoPE de última generación, YaRN, tanto en tareas de modelado de lenguaje de nivel superior como en una variedad de aplicaciones de texto largo de nivel inferior.
English
This paper addresses the challenge of train-short-test-long (TSTL) scenarios
in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE),
where models pre-trained on shorter sequences face difficulty with
out-of-distribution (OOD) token positions in longer sequences. We introduce
Resonance RoPE, a novel approach designed to narrow the generalization gap in
TSTL scenarios by refining the interpolation of RoPE features for OOD
positions, significantly improving the model performance without additional
online computational costs. Furthermore, we present PosGen, a new synthetic
benchmark specifically designed for fine-grained behavior analysis in TSTL
scenarios, aiming to isolate the constantly increasing difficulty of token
generation on long contexts from the challenges of recognizing new token
positions. Our experiments on synthetic tasks show that after applying
Resonance RoPE, Transformers recognize OOD position better and more robustly.
Our extensive LLM experiments also show superior performance after applying
Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on
both upstream language modeling tasks and a variety of downstream long-text
applications.