NoLiMa: Valutazione del Contesto Lungo Oltre il Confronto Letterale
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Autori: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) recenti supportano contesti lunghi che vanno da 128K a 1M token. Un metodo popolare per valutare queste capacità è il test dell'ago nel pagliaio (NIAH), che consiste nel recuperare un "ago" (informazioni rilevanti) da un "pagliaio" (lungo contesto non rilevante). Estensioni di questo approccio includono l'aumento dei distrattori, la concatenazione di fatti e il ragionamento contestuale. Tuttavia, in questi benchmark, i modelli possono sfruttare corrispondenze letterali esistenti tra l'ago e il pagliaio per semplificare il compito. Per affrontare questo problema, introduciamo NoLiMa, un benchmark che estende NIAH con un set di aghi attentamente progettato, dove domande e aghi hanno una sovrapposizione lessicale minima, richiedendo ai modelli di inferire associazioni latenti per individuare l'ago all'interno del pagliaio. Valutiamo 12 LLM popolari che affermano di supportare contesti di almeno 128K token. Se si comportano bene in contesti brevi (<1K), le prestazioni degradano significativamente all'aumentare della lunghezza del contesto. A 32K, ad esempio, 10 modelli scendono al di sotto del 50% rispetto ai loro forti baselines a breve lunghezza. Anche GPT-4o, una delle eccezioni più performanti, subisce una riduzione da un baseline quasi perfetto del 99,3% al 69,7%. La nostra analisi suggerisce che questi cali derivano dalla maggiore difficoltà che il meccanismo di attenzione affronta in contesti più lunghi quando mancano corrispondenze letterali, rendendo più difficile il recupero di informazioni rilevanti.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary