Perdus dans les histoires : Bogues de cohérence dans la génération de longs récits par les LLM

Résumé

Que se passe-t-il lorsqu'un conteur oublie sa propre histoire ? Les grands modèles de langage (LLM) peuvent désormais générer des récits s'étendant sur des dizaines de milliers de mots, mais ils échouent souvent à maintenir une cohérence sur toute leur longueur. Lorsqu'ils génèrent des narrations longues, ces modèles peuvent se contredire sur des faits préétablis, des traits de caractère ou les règles de leur univers. Les benchmarks existants pour la génération d'histoires se concentrent principalement sur la qualité de l'intrigue et la fluidité, laissant les erreurs de cohérence largement inexplorées. Pour combler cette lacune, nous présentons ConStory-Bench, un benchmark conçu pour évaluer la cohérence narrative dans la génération de récits longs. Il contient 2 000 prompts répartis dans quatre scénarios de tâche et définit une taxonomie de cinq catégories d'erreurs avec 19 sous-types granulaires. Nous développons également ConStory-Checker, un pipeline automatisé qui détecte les contradictions et étaye chaque jugement par des preuves textuelles explicites. En évaluant une série de LLM à travers cinq questions de recherche, nous constatons que les erreurs de cohérence présentent des tendances claires : elles sont plus fréquentes dans les dimensions factuelles et temporelles, ont tendance à apparaître vers le milieu des récits, surviennent dans des segments de texte avec une entropie au niveau des tokens plus élevée, et certains types d'erreurs ont tendance à co-occurrer. Ces résultats peuvent éclairer les futures tentatives d'amélioration de la cohérence dans la génération narrative longue. Notre page projet est disponible à l'adresse https://picrew.github.io/constory-bench.github.io/.

English

What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.

Perdus dans les histoires : Bogues de cohérence dans la génération de longs récits par les LLM

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Résumé

Support