PRELUDE: Een Benchmark Ontworpen om Globale Begrip en Redeneren over Lange Contexten te Vereisen
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
Auteurs: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
Samenvatting
We introduceren PRELUDE, een benchmark voor het evalueren van begrip van lange contexten
via de taak om te bepalen of een prequelverhaal van een personage consistent is
met het canonieke verhaal van het oorspronkelijke boek. Onze taak stelt sterkere
eisen aan globaal begrip en diepgaand redeneren dan bestaande benchmarks --
aangezien de prequels geen deel uitmaken van het oorspronkelijke verhaal, vereist
het beoordelen van hun geloofwaardigheid doorgaans het zoeken en integreren van
informatie die slechts indirect gerelateerd is. Empirisch gezien vereist 88% van
de gevallen bewijs uit meerdere delen van het verhaal. Experimentele resultaten
benadrukken de uitdaging van onze taak: in-context leren, RAG en in-domein
training met state-of-the-art LLM's, en commerciële DeepResearch-services,
blijven meer dan 15% achter bij mensen. Een verder menselijk onderzoek toont aan
dat modellen vaak correcte antwoorden produceren met gebrekkige redenering, wat
leidt tot een kloof van meer dan 30% in redeneernauwkeurigheid vergeleken met
mensen. Deze bevindingen onderstrepen de aanzienlijke ruimte voor verbetering
in het begrip van lange contexten en redeneren.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.