ChatPaper.aiChatPaper

PRELUDIO: Un punto de referencia diseñado para requerir comprensión global y razonamiento sobre contextos extensos

PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

August 13, 2025
Autores: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI

Resumen

Presentamos PRELUDE, un punto de referencia para evaluar la comprensión de contextos extensos a través de la tarea de determinar si la historia precuela de un personaje es consistente con la narrativa canónica del libro original. Nuestra tarea exige una mayor demanda de comprensión global y razonamiento profundo en comparación con los puntos de referencia existentes, ya que las precuelas no forman parte de la historia original y evaluar su plausibilidad generalmente requiere buscar e integrar información que solo está indirectamente relacionada. Empíricamente, el 88% de los casos requieren evidencia de múltiples partes de la narrativa. Los resultados experimentales destacan el desafío de nuestra tarea: el aprendizaje en contexto, RAG y el entrenamiento en dominio con modelos de lenguaje de última generación, así como los servicios comerciales de DeepResearch, se quedan atrás de los humanos en más del 15%. Un estudio adicional con humanos revela que los modelos a menudo producen respuestas correctas con un razonamiento defectuoso, lo que resulta en una brecha de más del 30% en la precisión del razonamiento en comparación con los humanos. Estos hallazgos subrayan el margen sustancial de mejora en la comprensión y el razonamiento de contextos extensos.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88% of instances require evidence from multiple parts of the narrative. Experimental results highlight the challenge of our task: in-context learning, RAG and in-domain training with state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans by >15%. A further human study reveals that models often produce correct answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy compared to humans. These findings underscore the substantial room for improvement in long-context understanding and reasoning.
PDF141August 15, 2025