ChatPaper.aiChatPaper

대규모 언어 모델의 장편 스토리 생성에서 나타나는 일관성 버그

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

March 6, 2026
저자: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
cs.AI

초록

스토리텔러가 자신의 이야기를 잊어버리면 어떤 일이 발생할까요? 대규모 언어 모델(LLM)은 이제 수만 단어에 달하는 서사를 생성할 수 있지만, 종종 처음부터 끝까지 일관성을 유지하지 못합니다. 장편 서사를 생성할 때 이러한 모델은 이미 확립된 사실, 등장인물 특성, 세계관 규칙과 모순되는 내용을 만들어낼 수 있습니다. 기존의 스토리 생성 벤치마크는 주로 플롯의 질과 유창성에 초점을 맞추고 있어 일관성 오류는 크게 탐구되지 않고 있습니다. 이러한 격차를 해결하기 위해, 우리는 장편 스토리 생성에서 서사 일관성을 평가하기 위해 설계된 벤치마크인 ConStory-Bench을 소개합니다. 이 벤치마크는 4가지 작업 시나리오에 걸친 2,000개의 프롬프트를 포함하며, 19개의 세분화된 하위 유형을 가진 5가지 오류 범주 체계를 정의합니다. 또한 우리는 모순을 감지하고 각 판단을 명시적인 텍스트 증거에 기반하게 하는 자동화 파이프라인인 ConStory-Checker를 개발했습니다. 5개의 연구 질문을 통해 다양한 LLM을 평가한 결과, 일관성 오류는 다음과 같은 뚜렷한 경향을 보입니다: 사실적 및 시간적 차원에서 가장 흔하게 나타나고, 서사 중간 부분 주변에 발생하는 경향이 있으며, 토큰 수준 엔트로피가 높은 텍스트 세그먼트에서 발생하고, 특정 오류 유형은 함께 발생하는 경향이 있습니다. 이러한 발견들은 향후 장편 서사 생성의 일관성 개선 노력에 정보를 제공할 수 있습니다. 우리의 프로젝트 페이지는 https://picrew.github.io/constory-bench.github.io/에서 확인할 수 있습니다.
English
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.
PDF834March 16, 2026