Persi nelle Storie: Bug di Coerenza nella Generazione di Storie Lunghe da parte degli LLM
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
March 6, 2026
Autori: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
cs.AI
Abstract
Cosa accade quando un narratore dimentica la propria storia? I Modelli Linguistici di Grandi Dimensioni (LLM) sono ora in grado di generare narrazioni che si estendono per decine di migliaia di parole, ma spesso non riescono a mantenere la coerenza lungo tutto il testo. Durante la generazione di narrazioni di forma lunga, questi modelli possono contraddire fatti precedentemente stabiliti, tratti caratteriali e regole del mondo narrativo. I benchmark esistenti per la generazione di storie si concentrano principalmente sulla qualità della trama e sulla fluidità, lasciando in gran parte inesplorati gli errori di coerenza. Per colmare questa lacuna, presentiamo ConStory-Bench, un benchmark progettato per valutare la coerenza narrativa nella generazione di storie di forma lunga. Esso contiene 2.000 prompt relativi a quattro scenari di attività e definisce una tassonomia di cinque categorie di errori con 19 sottotipi granulari. Sviluppiamo inoltre ConStory-Checker, una pipeline automatizzata che rileva le contraddizioni e basa ogni giudizio su evidenze testuali esplicite. Valutando una serie di LLM attraverso cinque domande di ricerca, scopriamo che gli errori di coerenza mostrano tendenze precise: sono più comuni nelle dimensioni fattuali e temporali, tendono a comparire verso la metà delle narrazioni, si manifestano in segmenti di testo con entropia a livello di token più elevata e certi tipi di errore tendono a co-verificarsi. Questi risultati possono guidare i futuri sforzi per migliorare la coerenza nella generazione narrativa di forma lunga. La nostra pagina progetto è disponibile all'indirizzo https://picrew.github.io/constory-bench.github.io/.
English
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.