NoLiMa: Оценка длинного контекста за пределами прямого сопоставления.
NoLiMa: Long-Context Evaluation Beyond Literal Matching
February 7, 2025
Авторы: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
cs.AI
Аннотация
Недавние модели больших языков (LLM) поддерживают длинные контексты от 128K до 1M токенов. Популярным методом оценки этих возможностей является тест "иголка в стоге сена" (NIAH), который включает в себя поиск "иголки" (соответствующей информации) в "стоге сена" (длинном нерелевантном контексте). Расширения этого подхода включают увеличение отвлекающих элементов, цепочки фактов и рассуждения в контексте. Однако в этих бенчмарках модели могут использовать существующие буквальные совпадения между иголкой и стогом, чтобы упростить задачу. Для решения этой проблемы мы представляем NoLiMa, бенчмарк, расширяющий NIAH с тщательно разработанным набором иголок, где вопросы и иголки имеют минимальное лексическое перекрытие, требуя от моделей выводить скрытые ассоциации для нахождения иголки в стоге сена. Мы оцениваем 12 популярных LLM, которые утверждают, что поддерживают контексты длиной не менее 128K токенов. Хотя они хорошо справляются с короткими контекстами (<1K), производительность значительно снижается с увеличением длины контекста. Например, при 32K 10 моделей падают ниже 50% своих сильных базовых значений короткой длины. Даже GPT-4o, одно из лучших исключений, испытывает снижение с почти идеального базового значения 99.3% до 69.7%. Наш анализ показывает, что эти снижения обусловлены увеличенной сложностью, с которой сталкивается механизм внимания в длинных контекстах, когда буквальные совпадения отсутствуют, что затрудняет поиск соответствующей информации.
English
Recent large language models (LLMs) support long contexts ranging from 128K
to 1M tokens. A popular method for evaluating these capabilities is the
needle-in-a-haystack (NIAH) test, which involves retrieving a "needle"
(relevant information) from a "haystack" (long irrelevant context). Extensions
of this approach include increasing distractors, fact chaining, and in-context
reasoning. However, in these benchmarks, models can exploit existing literal
matches between the needle and haystack to simplify the task. To address this,
we introduce NoLiMa, a benchmark extending NIAH with a carefully designed
needle set, where questions and needles have minimal lexical overlap, requiring
models to infer latent associations to locate the needle within the haystack.
We evaluate 12 popular LLMs that claim to support contexts of at least 128K
tokens. While they perform well in short contexts (<1K), performance degrades
significantly as context length increases. At 32K, for instance, 10 models drop
below 50% of their strong short-length baselines. Even GPT-4o, one of the
top-performing exceptions, experiences a reduction from an almost-perfect
baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the
increased difficulty the attention mechanism faces in longer contexts when
literal matches are absent, making it harder to retrieve relevant information.Summary
AI-Generated Summary