PRELUDE: Um Benchmark Projetado para Exigir Compreensão Global e Raciocínio sobre Contextos Longos
PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
August 13, 2025
Autores: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou
cs.AI
Resumo
Apresentamos o PRELUDE, um benchmark para avaliar a compreensão de contexto longo por meio da tarefa de determinar se a história de prequel de um personagem é consistente com a narrativa canônica do livro original. Nossa tarefa exige uma demanda mais forte de compreensão global e raciocínio profundo em comparação com benchmarks existentes — como os prequels não fazem parte da história original, avaliar sua plausibilidade geralmente requer buscar e integrar informações que estão apenas indiretamente relacionadas. Empiricamente, 88% dos casos exigem evidências de múltiplas partes da narrativa. Os resultados experimentais destacam o desafio de nossa tarefa: aprendizado em contexto, RAG e treinamento em domínio com LLMs de última geração, além de serviços comerciais de DeepResearch, ficam atrás dos humanos em mais de 15%. Um estudo adicional com humanos revela que os modelos frequentemente produzem respostas corretas com raciocínios falhos, resultando em uma diferença de mais de 30% na precisão do raciocínio em comparação com humanos. Essas descobertas ressaltam a necessidade substancial de melhoria na compreensão e raciocínio de contexto longo.
English
We introduce PRELUDE, a benchmark for evaluating long-context understanding
through the task of determining whether a character's prequel story is
consistent with the canonical narrative of the original book. Our task poses a
stronger demand for global comprehension and deep reasoning than existing
benchmarks -- as the prequels are not part of the original story, assessing
their plausibility typically requires searching and integrating information
that is only indirectly related. Empirically, 88% of instances require evidence
from multiple parts of the narrative. Experimental results highlight the
challenge of our task: in-context learning, RAG and in-domain training with
state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans
by >15%. A further human study reveals that models often produce correct
answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy
compared to humans. These findings underscore the substantial room for
improvement in long-context understanding and reasoning.