DramaBench: Un Marco de Evaluación Seis-Dimensional para la Continuación de Guiones Dramáticos
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
Autores: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
Resumen
La continuación de guiones dramáticos requiere que los modelos mantengan la coherencia de los personajes, avancen la trama de manera lógica y preserven la estructura dramática, capacidades que los benchmarks existentes no logran evaluar de manera integral. Presentamos DramaBench, el primer benchmark a gran escala para evaluar la continuación de guiones dramáticos en seis dimensiones independientes: Estándares de Formato, Eficiencia Narrativa, Coherencia de Personajes, Profundidad Emocional, Coherencia Lógica y Manejo del Conflicto. Nuestro marco combina análisis basado en reglas con etiquetado mediante LLM y métricas estadísticas, garantizando una evaluación objetiva y reproducible. Realizamos una evaluación exhaustiva de 8 modelos de lenguaje de última generación en 1.103 guiones (8.824 evaluaciones en total), con pruebas rigurosas de significancia estadística (252 comparaciones por pares, 65.9% significativas) y validación humana (188 guiones, acuerdo sustancial en 3/5 dimensiones). Nuestros estudios de ablación confirman que las seis dimensiones capturan aspectos de calidad independientes (media | r | = 0.020). DramaBench proporciona retroalimentación accionable específica por dimensión para la mejora de modelos y establece un estándar riguroso para la evaluación de la escritura creativa.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.