PRELUDE: Een Benchmark Ontworpen om Globale Begrip en Redeneren over Lange Contexten te Vereisen

Samenvatting

We introduceren PRELUDE, een benchmark voor het evalueren van begrip van lange contexten via de taak om te bepalen of een prequelverhaal van een personage consistent is met het canonieke verhaal van het oorspronkelijke boek. Onze taak stelt sterkere eisen aan globaal begrip en diepgaand redeneren dan bestaande benchmarks -- aangezien de prequels geen deel uitmaken van het oorspronkelijke verhaal, vereist het beoordelen van hun geloofwaardigheid doorgaans het zoeken en integreren van informatie die slechts indirect gerelateerd is. Empirisch gezien vereist 88% van de gevallen bewijs uit meerdere delen van het verhaal. Experimentele resultaten benadrukken de uitdaging van onze taak: in-context leren, RAG en in-domein training met state-of-the-art LLM's, en commerciële DeepResearch-services, blijven meer dan 15% achter bij mensen. Een verder menselijk onderzoek toont aan dat modellen vaak correcte antwoorden produceren met gebrekkige redenering, wat leidt tot een kloof van meer dan 30% in redeneernauwkeurigheid vergeleken met mensen. Deze bevindingen onderstrepen de aanzienlijke ruimte voor verbetering in het begrip van lange contexten en redeneren.

English

We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88% of instances require evidence from multiple parts of the narrative. Experimental results highlight the challenge of our task: in-context learning, RAG and in-domain training with state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans by >15%. A further human study reveals that models often produce correct answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy compared to humans. These findings underscore the substantial room for improvement in long-context understanding and reasoning.

PRELUDE: Een Benchmark Ontworpen om Globale Begrip en Redeneren over Lange Contexten te Vereisen

PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

Samenvatting

Support