DramaBench: Шестимерная система оценки для продолжения драматических сценариев
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
Авторы: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
Аннотация
Продолжение драматургических сценариев требует от моделей сохранения целостности персонажей, последовательного развития сюжета и соблюдения драматургической структуры — возможностей, которые существующие бенчмарки не способны оценить комплексно. Мы представляем DramaBench, первый крупномасштабный бенчмарк для оценки продолжения драматургических сценариев по шести независимым измерениям: соответствие формату, нарративная эффективность, целостность персонажей, эмоциональная глубина, логическая последовательность и работа с конфликтом. Наша методология сочетает правило-ориентированный анализ с разметкой на основе больших языковых моделей (LLM) и статистическими метриками, обеспечивая объективную и воспроизводимую оценку. Мы провели всестороннюю оценку 8 современных языковых моделей на 1103 сценариях (всего 8824 оценки) с применением строгой проверки статистической значимости (252 парных сравнения, 65.9% значимых) и валидации человеком (188 сценариев, существенное согласие по 3 из 5 измерений). Наши исследования методом абляции подтверждают, что все шесть измерений фиксируют независимые аспекты качества (среднее |r| = 0.020). DramaBench предоставляет практическую обратную связь по конкретным измерениям для улучшения моделей и устанавливает строгий стандарт для оценки творческого письма.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.