PRELUDE: Un benchmark progettato per richiedere comprensione globale e ragionamento su contesti estesi
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
Autori: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
Abstract
Presentiamo PRELUDE, un benchmark per valutare la comprensione di contesti lunghi attraverso il compito di determinare se la storia prequel di un personaggio sia coerente con la narrazione canonica del libro originale. Il nostro compito richiede una comprensione globale e un ragionamento profondo più impegnativi rispetto ai benchmark esistenti — poiché i prequel non fanno parte della storia originale, valutarne la plausibilità richiede tipicamente la ricerca e l'integrazione di informazioni solo indirettamente correlate. Empiricamente, l'88% dei casi richiede prove provenienti da più parti della narrazione. I risultati sperimentali evidenziano la difficoltà del nostro compito: l'apprendimento in contesto, il RAG e l'addestramento in dominio con modelli linguistici all'avanguardia, così come i servizi commerciali di DeepResearch, rimangono indietro rispetto agli esseri umani di oltre il 15%. Un ulteriore studio umano rivela che i modelli spesso producono risposte corrette con un ragionamento difettoso, portando a un divario di oltre il 30% nell'accuratezza del ragionamento rispetto agli esseri umani. Questi risultati sottolineano il notevole margine di miglioramento nella comprensione e nel ragionamento su contesti lunghi.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.