VORSPIEL: Ein Benchmark, der globales Verständnis und Schlussfolgerungen über lange Kontexte erfordert
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
papers.authors: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
papers.abstract
Wir stellen PRELUDE vor, einen Benchmark zur Bewertung des Verständnisses langer Kontexte durch die Aufgabe, zu bestimmen, ob die Vorgeschichte einer Figur mit der kanonischen Erzählung des ursprünglichen Buches konsistent ist. Unsere Aufgabe stellt eine stärkere Anforderung an globales Verständnis und tiefgreifendes Schlussfolgern als bestehende Benchmarks – da die Vorgeschichten nicht Teil der ursprünglichen Handlung sind, erfordert die Bewertung ihrer Plausibilität typischerweise die Suche und Integration von Informationen, die nur indirekt miteinander verbunden sind. Empirisch erfordern 88 % der Fälle Belege aus mehreren Teilen der Erzählung. Experimentelle Ergebnisse unterstreichen die Herausforderung unserer Aufgabe: In-Context-Lernen, RAG und domänenspezifisches Training mit state-of-the-art LLMs sowie kommerzielle DeepResearch-Dienste liegen um mehr als 15 % hinter menschlicher Leistung zurück. Eine weitere menschliche Studie zeigt, dass Modelle oft korrekte Antworten mit fehlerhafter Argumentation liefern, was zu einer Lücke von über 30 % in der Argumentationsgenauigkeit im Vergleich zu Menschen führt. Diese Ergebnisse verdeutlichen den erheblichen Verbesserungsbedarf beim Verständnis und der Argumentation in langen Kontexten.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.