Verloren in Geschichten: Konsistenzfehler bei der Langzeit-Textgenerierung durch LLMs

Zusammenfassung

Was passiert, wenn eine Geschichtenerzählerin ihre eigene Geschichte vergisst? Große Sprachmodelle (LLMs) können inzwischen Erzählungen mit Zehntausenden von Wörtern generieren, scheitern jedoch oft daran, die Konsistenz throughout zu wahren. Bei der Erzeugung langformatiger Narrationen können diese Modelle ihre eigenen etablierten Fakten, Charaktereigenschaften und Weltregeln widersprechen. Bestehende Benchmarks zur Geschichtengenerierung konzentrieren sich hauptsächlich auf Handlungsqualität und Flüssigkeit, wodurch Konsistenzfehler weitgehend unerforscht bleiben. Um diese Lücke zu schließen, stellen wir ConStory-Bench vor, einen Benchmark, der zur Bewertung der narrativen Konsistenz bei der langformatigen Geschichtengenerierung entwickelt wurde. Er enthält 2.000 Prompts über vier Aufgaben-Szenarien hinweg und definiert eine Taxonomie mit fünf Fehlerkategorien und 19 feinkörnigen Subtypen. Wir entwickeln zudem ConStory-Checker, eine automatisierte Pipeline, die Widersprüche erkennt und jedes Urteil in expliziten textuellen Belegen verankert. Durch die Evaluation einer Reihe von LLMs anhand von fünf Forschungsfragen stellen wir fest, dass Konsistenzfehler klare Tendenzen aufweisen: Sie treten am häufigsten in faktischen und temporalen Dimensionen auf, neigen dazu, in der Mitte von Narrationen zu erscheinen, kommen in Textsegmenten mit höherer Token-Entropie vor und bestimmte Fehlertypen ko-okkurenzieren tendenziell. Diese Erkenntnisse können zukünftige Bemühungen zur Verbesserung der Konsistenz in der langformatigen narrativen Generierung informieren. Unsere Projektseite ist verfügbar unter https://picrew.github.io/constory-bench.github.io/.

English

What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.

Verloren in Geschichten: Konsistenzfehler bei der Langzeit-Textgenerierung durch LLMs

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Zusammenfassung

Support