NoLiMa: Evaluatie van lange contexten voorbij letterlijke overeenkomsten
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Auteurs: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Samenvatting
Recente grote taalmodellen (LLM's) ondersteunen lange contexten variërend van 128K tot 1M tokens. Een populaire methode om deze capaciteiten te evalueren is de naald-in-een-hooiberg (NIAH) test, waarbij het terughalen van een "naald" (relevante informatie) uit een "hooiberg" (lang irrelevante context) betrokken is. Uitbreidingen van deze benadering omvatten het verhogen van afleiders, feitenketens en redeneren binnen de context. Echter, in deze benchmarks kunnen modellen bestaande letterlijke overeenkomsten tussen de naald en de hooiberg benutten om de taak te vereenvoudigen. Om dit aan te pakken, introduceren we NoLiMa, een benchmark die NIAH uitbreidt met een zorgvuldig ontworpen naaldenset, waarbij vragen en naalden minimaal lexicaal overlappen, waardoor modellen latente associaties moeten afleiden om de naald binnen de hooiberg te lokaliseren. We evalueren 12 populaire LLM's die beweren contexten van minimaal 128K tokens te ondersteunen. Hoewel ze goed presteren in korte contexten (<1K), neemt de prestatie aanzienlijk af naarmate de contextlengte toeneemt. Bijvoorbeeld, bij 32K zakken 10 modellen onder de 50% van hun sterke baselines voor korte lengtes. Zelfs GPT-4o, een van de best presterende uitzonderingen, ervaart een afname van een bijna perfecte baseline van 99,3% naar 69,7%. Onze analyse suggereert dat deze afnames voortkomen uit de toegenomen moeilijkheid waarmee het aandachtsmechanisme wordt geconfronteerd in langere contexten wanneer letterlijke overeenkomsten ontbreken, waardoor het moeilijker wordt om relevante informatie op te halen.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary