RULER: ¿Cuál es el tamaño de contexto real de tus modelos de lenguaje de contexto largo?
RULER: What's the Real Context Size of Your Long-Context Language Models?
April 9, 2024
Autores: Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg
cs.AI
Resumen
La prueba de la aguja en el pajar (NIAH, por sus siglas en inglés), que examina la capacidad de recuperar un fragmento de información (la "aguja") de textos distractores largos (el "pajar"), ha sido ampliamente adoptada para evaluar modelos de lenguaje de contexto largo (LMs). Sin embargo, esta prueba simple basada en recuperación solo indica una forma superficial de comprensión de contexto largo. Para proporcionar una evaluación más completa de los LMs de contexto largo, creamos un nuevo benchmark sintético llamado RULER con configuraciones flexibles para longitudes de secuencia personalizadas y complejidad de tareas. RULER amplía la prueba NIAH básica para incluir variaciones con diferentes tipos y cantidades de agujas. Además, RULER introduce nuevas categorías de tareas, como el rastreo multi-salto y la agregación, para evaluar comportamientos más allá de la búsqueda en el contexto. Evaluamos diez LMs de contexto largo con 13 tareas representativas en RULER. A pesar de lograr una precisión casi perfecta en la prueba NIAH básica, todos los modelos muestran grandes caídas en el rendimiento a medida que aumenta la longitud del contexto. Aunque estos modelos afirman tener tamaños de contexto de 32K tokens o más, solo cuatro modelos (GPT-4, Command-R, Yi-34B y Mixtral) pueden mantener un rendimiento satisfactorio en la longitud de 32K. Nuestro análisis de Yi-34B, que admite una longitud de contexto de 200K, revela un amplio margen de mejora a medida que aumentamos la longitud de la entrada y la complejidad de las tareas. Hemos liberado RULER como código abierto para fomentar una evaluación integral de los LMs de contexto largo.
English
The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve
a piece of information (the "needle") from long distractor texts (the
"haystack"), has been widely adopted to evaluate long-context language models
(LMs). However, this simple retrieval-based test is indicative of only a
superficial form of long-context understanding. To provide a more comprehensive
evaluation of long-context LMs, we create a new synthetic benchmark RULER with
flexible configurations for customized sequence length and task complexity.
RULER expands upon the vanilla NIAH test to encompass variations with diverse
types and quantities of needles. Moreover, RULER introduces new task categories
multi-hop tracing and aggregation to test behaviors beyond searching from
context. We evaluate ten long-context LMs with 13 representative tasks in
RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all
models exhibit large performance drops as the context length increases. While
these models all claim context sizes of 32K tokens or greater, only four models
(GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance
at the length of 32K. Our analysis of Yi-34B, which supports context length of
200K, reveals large room for improvement as we increase input length and task
complexity. We open source RULER to spur comprehensive evaluation of
long-context LMs.Summary
AI-Generated Summary