DramaBench: Een Zesdimensionaal Evaluatiekader voor Drama Scriptvoortzetting
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
Auteurs: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
Samenvatting
Drama script continuatie vereist dat modellen personageconsistentie behouden, de plot coherent voortzetten en dramatische structuur bewaren - vaardigheden die bestaande benchmarks niet volledig kunnen evalueren. Wij presenteren DramaBench, de eerste grootschalige benchmark voor het evalueren van drama script continuatie langs zes onafhankelijke dimensies: Formaatstandaarden, Narratieve Efficiëntie, Personageconsistentie, Emotionele Diepgang, Logische Consistentie en Conflictbehandeling. Ons framework combineert regelgebaseerde analyse met LLM-gestickte labeling en statistische metrieken, waardoor objectieve en reproduceerbare evaluatie wordt gegarandeerd. Wij voeren een uitgebreide evaluatie uit van 8 state-of-the-art taalmodellen op 1.103 scripts (8.824 evaluaties in totaal), met rigoureuze statistische significantietesten (252 paarsgewijze vergelijkingen, 65.9% significant) en menselijke validatie (188 scripts, substantiële overeenstemming op 3/5 dimensies). Onze ablatiestudies bevestigen dat alle zes dimensies onafhankelijke kwaliteitsaspecten meten (gemiddelde |r| = 0.020). DramaBench biedt actiegerichte, dimensiespecifieke feedback voor modelverbetering en stelt een rigoureuze standaard vast voor de evaluatie van creatief schrijven.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.