NoLiMa : Évaluation du contexte long au-delà de la correspondance littérale
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Auteurs: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Résumé
Les récents grands modèles de langage (LLM) prennent en charge de longs contextes allant de 128K à 1M jetons. Une méthode populaire pour évaluer ces capacités est le test de l'aiguille dans une botte de foin (NIAH), qui consiste à retrouver une "aiguille" (information pertinente) dans une "botte de foin" (contexte long et non pertinent). Les extensions de cette approche comprennent l'augmentation des distracteurs, le chaînage de faits et le raisonnement en contexte. Cependant, dans ces évaluations, les modèles peuvent exploiter des correspondances littérales existantes entre l'aiguille et la botte de foin pour simplifier la tâche. Pour remédier à cela, nous introduisons NoLiMa, un banc d'essai étendant NIAH avec un ensemble d'aiguilles soigneusement conçu, où les questions et les aiguilles ont un chevauchement lexical minimal, obligeant les modèles à déduire des associations latentes pour localiser l'aiguille dans la botte de foin. Nous évaluons 12 LLM populaires qui prétendent prendre en charge des contextes d'au moins 128K jetons. Bien qu'ils se comportent bien dans des contextes courts (<1K), leurs performances se dégradent significativement à mesure que la longueur du contexte augmente. À 32K, par exemple, 10 modèles tombent en dessous de 50% de leurs performances de référence fortes à courte longueur. Même GPT-4o, l'une des exceptions les plus performantes, voit ses performances passer d'une référence presque parfaite de 99,3% à 69,7%. Notre analyse suggère que ces baisses découlent de la difficulté accrue à laquelle le mécanisme d'attention est confronté dans des contextes plus longs lorsque les correspondances littérales sont absentes, rendant plus difficile la récupération d'informations pertinentes.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary