NoLiMa: Evaluierung von Langkontexten über das reine Abgleichen von wörtlichen Übereinstimmungen hinaus
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Autoren: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Zusammenfassung
Aktuelle große Sprachmodelle (LLMs) unterstützen lange Kontexte von 128K bis 1M Tokens. Eine beliebte Methode zur Bewertung dieser Fähigkeiten ist der Nadel-im-Heuhaufen (NIAH) Test, bei dem es darum geht, eine "Nadel" (relevante Information) aus einem "Heuhaufen" (langen irrelevanten Kontext) abzurufen. Erweiterungen dieses Ansatzes umfassen die Erhöhung von Ablenkungen, Faktenverkettung und kontextbezogenes Denken. In diesen Leistungstests können Modelle jedoch bestehende wörtliche Übereinstimmungen zwischen Nadel und Heuhaufen ausnutzen, um die Aufgabe zu vereinfachen. Um dies zu lösen, stellen wir NoLiMa vor, einen Leistungstest, der NIAH mit einem sorgfältig gestalteten Nadelset erweitert, bei dem Fragen und Nadeln minimale lexikalische Überschneidungen aufweisen und Modelle dazu zwingen, latente Verbindungen zu erschließen, um die Nadel im Heuhaufen zu finden. Wir bewerten 12 beliebte LLMs, die behaupten, Kontexte von mindestens 128K Tokens zu unterstützen. Während sie sich in kurzen Kontexten (<1K) gut schlagen, nimmt die Leistung signifikant ab, wenn die Kontextlänge zunimmt. Bei 32K fallen beispielsweise 10 Modelle unter 50% ihrer starken Baseline für kurze Längen. Selbst GPT-4o, eine der leistungsstärksten Ausnahmen, erlebt einen Rückgang von einer nahezu perfekten Baseline von 99,3% auf 69,7%. Unsere Analyse legt nahe, dass diese Rückgänge auf die erhöhte Schwierigkeit zurückzuführen sind, der das Aufmerksamkeitsmechanismus in längeren Kontexten gegenübersteht, wenn wörtliche Übereinstimmungen fehlen und es schwieriger wird, relevante Informationen abzurufen.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary