PRÉLUDE : Un benchmark conçu pour exiger une compréhension globale et un raisonnement sur des contextes longs
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
papers.authors: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
papers.abstract
Nous présentons PRELUDE, un benchmark pour évaluer la compréhension de contextes longs à travers la tâche consistant à déterminer si une préquelle concernant un personnage est cohérente avec le récit canonique du livre original. Notre tâche exige une compréhension globale et un raisonnement approfondi plus poussés que les benchmarks existants — puisque les préquelles ne font pas partie de l'histoire originale, évaluer leur plausibilité nécessite généralement de rechercher et d'intégrer des informations qui ne sont que indirectement liées. Empiriquement, 88 % des cas nécessitent des preuves provenant de multiples parties du récit. Les résultats expérimentaux mettent en lumière la difficulté de notre tâche : l'apprentissage en contexte, le RAG et l'entraînement en domaine avec des modèles de langage de pointe, ainsi que les services commerciaux DeepResearch, accusent un retard de plus de 15 % par rapport aux humains. Une étude humaine approfondie révèle que les modèles produisent souvent des réponses correctes avec un raisonnement erroné, ce qui entraîne un écart de plus de 30 % dans la précision du raisonnement par rapport aux humains. Ces résultats soulignent les progrès substantiels à réaliser dans la compréhension et le raisonnement de contextes longs.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.