物語に迷い込んで:大規模言語モデルによる長編ストーリー生成における一貫性バグ
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
March 6, 2026
著者: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
cs.AI
要旨
物語を紡ぐAIが自らのストーリーを見失う時、何が起きるのか?現在の大規模言語モデル(LLM)は数万字に及ぶ長編ナラティブを生成可能だが、一貫性を維持できないケースが多々見られる。長編ストーリー生成において、これらのモデルは既に設定された事実やキャラクター特性、世界観のルールに矛盾する内容を生成してしまう。既存のストーリー生成評価指標は主にプロットの質と流暢性に焦点を当てており、一貫性の誤りはほとんど検証されていなかった。この課題を解決するため、我々は長編ストーリー生成におけるナラティブの一貫性を評価するベンチマーク「ConStory-Bench」を開発した。本ベンチマークは4つのタスクシナリオにわたる2,000のプロンプトを包含し、19の細粒度サブタイプからなる5つの誤りカテゴリの分類体系を定義する。さらに、矛盾を検出し各判断を明示的なテキスト証拠に基づいて行う自動パイプライン「ConStory-Checker」も構築した。5つの研究課題を通じて様々なLLMを評価した結果、一貫性の誤りには明確な傾向があることが判明:事実関係と時間的次元で最も頻発し、物語の中盤に出現しやすく、トークンレベルのエントロピーが高いテキストセグメントで発生し、特定の誤りタイプは併存しやすい。これらの知見は、長編ナラティブ生成の一貫性改善に向けた今後の取り組みに貢献し得る。プロジェクトページはhttps://picrew.github.io/constory-bench.github.io/で公開中。
English
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.