ChatPaper.aiChatPaper

PRÉLUDE : Un benchmark conçu pour exiger une compréhension globale et un raisonnement sur des contextes longs

PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

August 13, 2025
papers.authors: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI

papers.abstract

Nous présentons PRELUDE, un benchmark pour évaluer la compréhension de contextes longs à travers la tâche consistant à déterminer si une préquelle concernant un personnage est cohérente avec le récit canonique du livre original. Notre tâche exige une compréhension globale et un raisonnement approfondi plus poussés que les benchmarks existants — puisque les préquelles ne font pas partie de l'histoire originale, évaluer leur plausibilité nécessite généralement de rechercher et d'intégrer des informations qui ne sont que indirectement liées. Empiriquement, 88 % des cas nécessitent des preuves provenant de multiples parties du récit. Les résultats expérimentaux mettent en lumière la difficulté de notre tâche : l'apprentissage en contexte, le RAG et l'entraînement en domaine avec des modèles de langage de pointe, ainsi que les services commerciaux DeepResearch, accusent un retard de plus de 15 % par rapport aux humains. Une étude humaine approfondie révèle que les modèles produisent souvent des réponses correctes avec un raisonnement erroné, ce qui entraîne un écart de plus de 30 % dans la précision du raisonnement par rapport aux humains. Ces résultats soulignent les progrès substantiels à réaliser dans la compréhension et le raisonnement de contextes longs.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88% of instances require evidence from multiple parts of the narrative. Experimental results highlight the challenge of our task: in-context learning, RAG and in-domain training with state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans by >15%. A further human study reveals that models often produce correct answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy compared to humans. These findings underscore the substantial room for improvement in long-context understanding and reasoning.
PDF141August 15, 2025