Perdidos en las Historias: Errores de Consistencia en la Generación de Historias Largas por parte de los LLM
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
March 6, 2026
Autores: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
cs.AI
Resumen
¿Qué ocurre cuando un narrador olvida su propia historia? Los Modelos de Lenguaje a Gran Escala (LLM) pueden generar narrativas que abarcan decenas de miles de palabras, pero a menudo fallan en mantener la coherencia a lo largo de todo el relato. Al generar narrativas extensas, estos modelos pueden contradecir sus propios hechos establecidos, rasgos de personajes y reglas del mundo narrativo. Los puntos de referencia existentes para la generación de historias se centran principalmente en la calidad de la trama y la fluidez, dejando los errores de coherencia en gran medida inexplorados. Para abordar esta brecha, presentamos ConStory-Bench, un punto de referencia diseñado para evaluar la coherencia narrativa en la generación de historias de formato largo. Contiene 2.000 indicaciones a través de cuatro escenarios de tareas y define una taxonomía de cinco categorías de errores con 19 subtipos detallados. También desarrollamos ConStory-Checker, un proceso automatizado que detecta contradicciones y fundamenta cada juicio en evidencia textual explícita. Evaluando una variedad de LLM mediante cinco preguntas de investigación, encontramos que los errores de coherencia muestran tendencias claras: son más comunes en las dimensiones factuales y temporales, tienden a aparecer alrededor de la mitad de las narrativas, ocurren en segmentos de texto con mayor entropía a nivel de token, y ciertos tipos de errores tienden a co-ocurrir. Estos hallazgos pueden orientar futuros esfuerzos para mejorar la coherencia en la generación de narrativas extensas. Nuestra página del proyecto está disponible en https://picrew.github.io/constory-bench.github.io/.
English
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.