DramaBench : Un Cadre d'Évaluation Hexadimensionnel pour la Poursuite de Scénarios Dramatiques
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
Auteurs: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
Résumé
La continuation de scénarios dramatiques exige des modèles qu'ils maintiennent la cohérence des personnages, fassent progresser l'intrigue de manière logique et préservent la structure dramatique – des capacités que les benchmarks existants n'évaluent pas de manière exhaustive. Nous présentons DramaBench, le premier benchmark à grande échelle pour évaluer la continuation de scénarios dramatiques selon six dimensions indépendantes : Normes de Format, Efficacité Narrative, Cohérence des Personnages, Profondeur Émotionnelle, Cohérence Logique et Gestion des Conflits. Notre cadre combine une analyse basée sur des règles avec un étiquetage par LLM et des métriques statistiques, garantissant une évaluation objective et reproductible. Nous menons une évaluation complète de 8 modèles de langage de pointe sur 1 103 scripts (8 824 évaluations au total), avec des tests rigoureux de signification statistique (252 comparaisons par paires, 65,9 % significatives) et une validation humaine (188 scripts, accord substantiel sur 3/5 dimensions). Nos études d'ablation confirment que les six dimensions capturent des aspects de qualité indépendants (| r | moyen = 0,020). DramaBench fournit un retour d'information actionnable par dimension pour l'amélioration des modèles et établit une norme rigoureuse pour l'évaluation de l'écriture créative.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.