Perdido em Histórias: Inconsistências na Geração de Narrativas Longas por LLMs

Resumo

O que acontece quando um contador de histórias esquece a sua própria narrativa? Os Grandes Modelos de Linguagem (LLMs) são agora capazes de gerar narrativas com dezenas de milhares de palavras, mas frequentemente falham em manter a consistência ao longo do texto. Ao gerar narrativas longas, estes modelos podem contradizer factos previamente estabelecidos, características das personagens e regras do mundo ficcional. Os *benchmarks* existentes para geração de histórias focam-se principalmente na qualidade do enredo e na fluidez, deixando os erros de consistência largamente por explorar. Para colmatar esta lacuna, apresentamos o ConStory-Bench, um *benchmark* concebido para avaliar a consistência narrativa na geração de histórias longas. Este contém 2.000 *prompts* abrangendo quatro cenários de tarefas e define uma taxonomia de cinco categorias de erro com 19 subtipos detalhados. Desenvolvemos também o ConStory-Checker, um *pipeline* automatizado que deteta contradições e fundamenta cada julgamento em evidências textuais explícitas. Avaliando uma variedade de LLMs através de cinco questões de investigação, descobrimos que os erros de consistência apresentam tendências claras: são mais comuns nas dimensões factual e temporal, tendem a aparecer a meio das narrativas, ocorrem em segmentos de texto com maior entropia a nível de *tokens*, e certos tipos de erro tendem a co-ocorrer. Estas descobertas podem orientar futuros esforços para melhorar a consistência na geração de narrativas longas. A nossa página do projeto está disponível em https://picrew.github.io/constory-bench.github.io/.

English

What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.

Perdido em Histórias: Inconsistências na Geração de Narrativas Longas por LLMs

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Resumo

Support