NoLiMa: Avaliação de Contexto Longo Além da Correspondência Literal
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Autores: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) recentes suportam contextos longos, variando de 128K a 1M de tokens. Um método popular para avaliar essas capacidades é o teste "agulha no palheiro" (NIAH, do inglês *needle-in-a-haystack*), que envolve recuperar uma "agulha" (informação relevante) de um "palheiro" (contexto longo e irrelevante). Extensões dessa abordagem incluem o aumento de distratores, encadeamento de fatos e raciocínio em contexto. No entanto, nesses benchmarks, os modelos podem explorar correspondências literais existentes entre a agulha e o palheiro para simplificar a tarefa. Para abordar isso, introduzimos o NoLiMa, um benchmark que estende o NIAH com um conjunto de agulhas cuidadosamente projetado, onde perguntas e agulhas têm sobreposição lexical mínima, exigindo que os modelos inferam associações latentes para localizar a agulha dentro do palheiro. Avaliamos 12 LLMs populares que afirmam suportar contextos de pelo menos 128K tokens. Embora tenham um bom desempenho em contextos curtos (<1K), o desempenho degrada significativamente à medida que o comprimento do contexto aumenta. Em 32K, por exemplo, 10 modelos caem abaixo de 50% de suas linhas de base fortes em contextos curtos. Mesmo o GPT-4o, uma das exceções de melhor desempenho, experimenta uma redução de uma linha de base quase perfeita de 99,3% para 69,7%. Nossa análise sugere que essas quedas decorrem da maior dificuldade que o mecanismo de atenção enfrenta em contextos mais longos quando as correspondências literais estão ausentes, tornando mais difícil recuperar informações relevantes.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary