NoLiMa: Evaluación de Contexto Largo más Allá de la Coincidencia Literal
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Autores: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) recientes admiten contextos largos que van desde 128K hasta 1M de tokens. Un método popular para evaluar estas capacidades es la prueba de "aguja en un pajar" (NIAH), que implica recuperar una "aguja" (información relevante) de un "pajar" (contexto largo e irrelevante). Las extensiones de este enfoque incluyen el aumento de distractores, encadenamiento de hechos y razonamiento contextual. Sin embargo, en estos benchmarks, los modelos pueden aprovechar coincidencias literales existentes entre la aguja y el pajar para simplificar la tarea. Para abordar esto, presentamos NoLiMa, un benchmark que extiende NIAH con un conjunto de agujas cuidadosamente diseñado, donde las preguntas y agujas tienen una superposición léxica mínima, lo que requiere que los modelos infieran asociaciones latentes para localizar la aguja dentro del pajar. Evaluamos 12 LLMs populares que afirman admitir contextos de al menos 128K tokens. Si bien se desempeñan bien en contextos cortos (<1K), el rendimiento se degrada significativamente a medida que aumenta la longitud del contexto. A 32K, por ejemplo, 10 modelos caen por debajo del 50% de sus baselines sólidos de longitud corta. Incluso GPT-4o, una de las excepciones con mejor rendimiento, experimenta una reducción desde un baseline casi perfecto del 99.3% al 69.7%. Nuestro análisis sugiere que estos descensos se derivan de la mayor dificultad que enfrenta el mecanismo de atención en contextos más largos cuando no hay coincidencias literales, lo que dificulta la recuperación de información relevante.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary