Заблудившись в повествованиях: ошибки согласованности при генерации длинных текстов большими языковыми моделями

Аннотация

Что происходит, когда рассказчик забывает собственную историю? Большие языковые модели (LLM) теперь способны генерировать повествования объемом в десятки тысяч слов, но зачастую им не удается сохранять последовательность на протяжении всего текста. При создании развернутых нарративов эти модели могут противоречить собственным установленным фактам, чертам персонажей и правилам мира. Существующие бенчмарки для генерации историй в основном сосредоточены на качестве сюжета и беглости, оставляя ошибки непоследовательности практически без внимания. Чтобы восполнить этот пробел, мы представляем ConStory-Bench — бенчмарк, предназначенный для оценки нарративной согласованности при генерации длинных текстов. Он содержит 2000 промптов для четырех сценариев задач и определяет таксономию из пяти категорий ошибок с 19 уточненными подтипами. Мы также разработали ConStory-Checker — автоматизированный конвейер, который выявляет противоречия и обосновывает каждое решение явными текстовыми свидетельствами. Оценивая ряд LLM с помощью пяти исследовательских вопросов, мы обнаружили, что ошибки непоследовательности демонстрируют четкие тенденции: они наиболее распространены в фактологическом и временном измерениях, склонны появляться в середине повествования, возникают в текстовых сегментах с более высокой энтропией на уровне токенов, а определенные типы ошибок имеют тенденцию к совместному появлению. Эти результаты могут помочь в будущих усилиях по улучшению согласованности в генерации длинных нарративов. Страница проекта доступна по адресу https://picrew.github.io/constory-bench.github.io/.

English

What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.

Заблудившись в повествованиях: ошибки согласованности при генерации длинных текстов большими языковыми моделями

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Аннотация

Support