NoLiMa : Évaluation du contexte long au-delà de la correspondance littérale

papers.abstract

Les récents grands modèles de langage (LLM) prennent en charge de longs contextes allant de 128K à 1M jetons. Une méthode populaire pour évaluer ces capacités est le test de l'aiguille dans une botte de foin (NIAH), qui consiste à retrouver une "aiguille" (information pertinente) dans une "botte de foin" (contexte long et non pertinent). Les extensions de cette approche comprennent l'augmentation des distracteurs, le chaînage de faits et le raisonnement en contexte. Cependant, dans ces évaluations, les modèles peuvent exploiter des correspondances littérales existantes entre l'aiguille et la botte de foin pour simplifier la tâche. Pour remédier à cela, nous introduisons NoLiMa, un banc d'essai étendant NIAH avec un ensemble d'aiguilles soigneusement conçu, où les questions et les aiguilles ont un chevauchement lexical minimal, obligeant les modèles à déduire des associations latentes pour localiser l'aiguille dans la botte de foin. Nous évaluons 12 LLM populaires qui prétendent prendre en charge des contextes d'au moins 128K jetons. Bien qu'ils se comportent bien dans des contextes courts (<1K), leurs performances se dégradent significativement à mesure que la longueur du contexte augmente. À 32K, par exemple, 10 modèles tombent en dessous de 50% de leurs performances de référence fortes à courte longueur. Même GPT-4o, l'une des exceptions les plus performantes, voit ses performances passer d'une référence presque parfaite de 99,3% à 69,7%. Notre analyse suggère que ces baisses découlent de la difficulté accrue à laquelle le mécanisme d'attention est confronté dans des contextes plus longs lorsque les correspondances littérales sont absentes, rendant plus difficile la récupération d'informations pertinentes.

English

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information.

NoLiMa : Évaluation du contexte long au-delà de la correspondance littérale

NoLiMa: Long-Context Evaluation Beyond Literal Matching

papers.abstract

Support