Perdidos en el medio: Cómo los modelos de lenguaje utilizan contextos largos
Lost in the Middle: How Language Models Use Long Contexts
July 6, 2023
Autores: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI
Resumen
Si bien los modelos de lenguaje recientes tienen la capacidad de recibir contextos largos como entrada, se sabe relativamente poco sobre qué tan bien estos modelos utilizan contextos más extensos. Analizamos el rendimiento de los modelos de lenguaje en dos tareas que requieren identificar información relevante dentro de sus contextos de entrada: respuesta a preguntas sobre múltiples documentos y recuperación de pares clave-valor. Encontramos que el rendimiento suele ser más alto cuando la información relevante aparece al principio o al final del contexto de entrada, y se degrada significativamente cuando los modelos deben acceder a información relevante en el medio de contextos largos. Además, el rendimiento disminuye sustancialmente a medida que el contexto de entrada se hace más extenso, incluso para modelos diseñados explícitamente para contextos largos. Nuestro análisis proporciona una mejor comprensión de cómo los modelos de lenguaje utilizan su contexto de entrada y ofrece nuevos protocolos de evaluación para futuros modelos de contexto largo.
English
While recent language models have the ability to take long contexts as input,
relatively little is known about how well the language models use longer
context. We analyze language model performance on two tasks that require
identifying relevant information within their input contexts: multi-document
question answering and key-value retrieval. We find that performance is often
highest when relevant information occurs at the beginning or end of the input
context, and significantly degrades when models must access relevant
information in the middle of long contexts. Furthermore, performance
substantially decreases as the input context grows longer, even for explicitly
long-context models. Our analysis provides a better understanding of how
language models use their input context and provides new evaluation protocols
for future long-context models.