DramaBench: Un Quadro di Valutazione a Sei Dimensioni per la Continuazione di Copioni Drammatici

Abstract

La continuazione di copioni drammatici richiede che i modelli mantengano la coerenza dei personaggi, facciano progredire la trama in modo logico e preservino la struttura drammatica, capacità che gli attuali benchmark non riescono a valutare in modo completo. Presentiamo DramaBench, il primo benchmark su larga scala per valutare la continuazione di copioni drammatici lungo sei dimensioni indipendenti: Standard di Formato, Efficienza Narrativa, Coerenza dei Personaggi, Profondità Emotiva, Coerenza Logica e Gestione dei Conflitti. Il nostro framework combina analisi basate su regole con etichettatura basata su LLM e metriche statistiche, garantendo una valutazione oggettiva e riproducibile. Abbiamo condotto una valutazione completa di 8 modelli linguistici all'avanguardia su 1.103 copioni (8.824 valutazioni totali), con test rigorosi di significatività statistica (252 confronti a coppie, 65,9% significativi) e validazione umana (188 copioni, accordo sostanziale su 3/5 dimensioni). I nostri studi di ablazione confermano che tutte e sei le dimensioni catturano aspetti qualitativi indipendenti (|r| medio = 0,020). DramaBench fornisce feedback specifico per dimensione, utile per il miglioramento dei modelli, e stabilisce uno standard rigoroso per la valutazione della scrittura creativa.

English

Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.

DramaBench: Un Quadro di Valutazione a Sei Dimensioni per la Continuazione di Copioni Drammatici

DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation

Abstract

Support