Verdwaald in Verhalen: Consistentiefouten in Lange Verhaalgeneratie door LLM's
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
March 6, 2026
Auteurs: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
cs.AI
Samenvatting
Wat gebeurt er wanneer een verhalenverteller zijn eigen verhaal vergeet? Grote Taalmodellen (LLM's) kunnen nu verhalen genereren die tienduizenden woorden beslaan, maar slagen er vaak niet in om de consistentie te behouden. Bij het genereren van lange verhalen kunnen deze modellen hun eigen vastgestelde feiten, karaktereigenschappen en wereldregels tegenspreken. Bestaande benchmarks voor verhaalgeneratie richten zich voornamelijk op plotkwaliteit en vlotheid, waardoor consistentiefouten grotendeels ononderzoek blijven. Om deze leemte op te vullen, presenteren we ConStory-Bench, een benchmark die is ontworpen om narratieve consistentie te evalueren bij het genereren van lange verhalen. De benchmark bevat 2.000 prompts verdeeld over vier taalscenario's en definieert een taxonomie van vijf foutcategorieën met 19 fijnmazige subtypes. We ontwikkelden ook ConStory-Checker, een geautomatiseerde pipeline die tegenstrijdigheden detecteert en elk oordeel grondt in expliciet tekstueel bewijs. Door een reeks LLM's te evalueren aan de hand van vijf onderzoeksvragen, constateren we dat consistentiefouten duidelijke tendensen vertonen: ze komen het meest voor in feitelijke en temporele dimensies, hebben de neiging om halverwege verhalen voor te komen, verschijnen in tekstsegmenten met een hogere entropie op tokenniveau, en bepaalde fouttypes hebben de neiging samen voor te komen. Deze bevindingen kunnen toekomstige inspanningen om de consistentie in lange narratieve generatie te verbeteren, informeren. Onze projectpagina is beschikbaar op https://picrew.github.io/constory-bench.github.io/.
English
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.