Resonance RoPE: Mejorando la Generalización de Longitud de Contexto en Modelos de Lenguaje a Gran Escala

Resumen

Este artículo aborda el desafío de los escenarios de entrenamiento-corto-prueba-larga (TSTL, por sus siglas en inglés) en Modelos de Lenguaje de Gran Escala (LLMs) equipados con Incrustación de Posición Rotatoria (RoPE), donde los modelos preentrenados en secuencias más cortas enfrentan dificultades con posiciones de tokens fuera de distribución (OOD) en secuencias más largas. Introducimos Resonance RoPE, un enfoque novedoso diseñado para reducir la brecha de generalización en escenarios TSTL mediante el refinamiento de la interpolación de características RoPE para posiciones OOD, mejorando significativamente el rendimiento del modelo sin costos computacionales adicionales en línea. Además, presentamos PosGen, un nuevo benchmark sintético específicamente diseñado para el análisis de comportamiento detallado en escenarios TSTL, con el objetivo de aislar la dificultad constantemente creciente de la generación de tokens en contextos largos de los desafíos de reconocer nuevas posiciones de tokens. Nuestros experimentos en tareas sintéticas muestran que, tras aplicar Resonance RoPE, los Transformers reconocen las posiciones OOD de manera más efectiva y robusta. Nuestros extensos experimentos con LLMs también muestran un rendimiento superior después de aplicar Resonance RoPE al método actual de escalado RoPE de última generación, YaRN, tanto en tareas de modelado de lenguaje de nivel superior como en una variedad de aplicaciones de texto largo de nivel inferior.

English

This paper addresses the challenge of train-short-test-long (TSTL) scenarios in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE), where models pre-trained on shorter sequences face difficulty with out-of-distribution (OOD) token positions in longer sequences. We introduce Resonance RoPE, a novel approach designed to narrow the generalization gap in TSTL scenarios by refining the interpolation of RoPE features for OOD positions, significantly improving the model performance without additional online computational costs. Furthermore, we present PosGen, a new synthetic benchmark specifically designed for fine-grained behavior analysis in TSTL scenarios, aiming to isolate the constantly increasing difficulty of token generation on long contexts from the challenges of recognizing new token positions. Our experiments on synthetic tasks show that after applying Resonance RoPE, Transformers recognize OOD position better and more robustly. Our extensive LLM experiments also show superior performance after applying Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on both upstream language modeling tasks and a variety of downstream long-text applications.

Resonance RoPE: Mejorando la Generalización de Longitud de Contexto en Modelos de Lenguaje a Gran Escala

Resonance RoPE: Improving Context Length Generalization of Large Language Models

Resumen

Support