DramaBench: Um Framework de Avaliação Seis Dimensional para a Continuação de Roteiros de Drama

Resumo

A continuação de roteiros dramáticos exige que os modelos mantenham a consistência dos personagens, avancem a trama de forma coerente e preservem a estrutura dramática - capacidades que os *benchmarks* existentes não avaliam de forma abrangente. Apresentamos o DramaBench, o primeiro *benchmark* em larga escala para avaliar a continuação de roteiros dramáticos em seis dimensões independentes: Padrões de Formatação, Eficiência Narrativa, Consistência de Personagens, Profundidade Emocional, Consistência Lógica e Manipulação de Conflitos. Nosso *framework* combina análise baseada em regras com rotulagem baseada em LLM e métricas estatísticas, garantindo uma avaliação objetiva e reproduzível. Realizamos uma avaliação abrangente de 8 modelos de linguagem state-of-the-art em 1.103 roteiros (8.824 avaliações no total), com testes rigorosos de significância estatística (252 comparações pareadas, 65,9% significativas) e validação humana (188 roteiros, concordância substancial em 3/5 dimensões). Nossos estudos de ablação confirmam que todas as seis dimensões capturam aspectos de qualidade independentes (média | r | = 0,020). O DramaBench fornece *feedback* acionável e específico por dimensão para o aprimoramento de modelos e estabelece um padrão rigoroso para a avaliação da escrita criativa.

English

Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.