ПРЕЛЮДИЯ: Бенчмарк, созданный для проверки глобального понимания и рассуждений в рамках длинных контекстов
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
Авторы: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
Аннотация
Мы представляем PRELUDE — эталонный тест для оценки понимания длинных контекстов через задачу определения, согласуется ли приквел истории персонажа с каноническим повествованием оригинальной книги. Наша задача предъявляет более высокие требования к глобальному пониманию и глубокому анализу, чем существующие тесты, — поскольку приквелы не являются частью оригинальной истории, оценка их правдоподобия обычно требует поиска и интеграции информации, которая лишь косвенно связана с сюжетом. Эмпирически 88% случаев требуют доказательств из нескольких частей повествования. Результаты экспериментов подчеркивают сложность нашей задачи: обучение в контексте, RAG и обучение в предметной области с использованием современных языковых моделей (LLMs), а также коммерческие сервисы DeepResearch отстают от человека более чем на 15%. Дополнительное исследование с участием людей показывает, что модели часто дают правильные ответы с ошибочной аргументацией, что приводит к разрыву в точности рассуждений более чем на 30% по сравнению с человеком. Эти результаты подчеркивают значительный потенциал для улучшения в области понимания длинных контекстов и логического анализа.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.