ChatPaper.aiChatPaper

DramaBench: Ein sechsdimensionales Bewertungsrahmenwerk für die Fortsetzung von Drehbüchern

DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation

December 22, 2025
papers.authors: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI

papers.abstract

Die Fortführung von Drehbüchern erfordert von Modellen die Aufrechterhaltung der Charakterkonsistenz, die kohärente Weiterentwicklung der Handlung und die Bewahrung der dramatischen Struktur – Fähigkeiten, die von bestehenden Benchmarks nicht umfassend bewertet werden. Wir stellen DramaBench vor, den ersten groß angelegten Benchmark zur Bewertung der Drehbuchfortführung über sechs unabhängige Dimensionen: Formatstandards, narrative Effizienz, Charakterkonsistenz, emotionale Tiefe, logische Konsistenz und Konfliktbewältigung. Unser Framework kombiniert regelbasierte Analysen mit LLM-basiertem Labeling und statistischen Metriken, um eine objektive und reproduzierbare Evaluation zu gewährleisten. Wir führen eine umfassende Evaluation von 8 state-of-the-art Sprachmodellen an 1.103 Drehbüchern durch (insgesamt 8.824 Evaluationen), mit rigorosen statistischen Signifikanztests (252 paarweise Vergleiche, 65,9 % signifikant) und menschlicher Validierung (188 Drehbücher, substanzielle Übereinstimmung in 3/5 Dimensionen). Unsere Ablationsstudien bestätigen, dass alle sechs Dimensionen unabhängige Qualitätsaspekte erfassen (mittleres |r| = 0,020). DramaBench liefert umsetzbare, dimensionsspezifische Feedback für Modellverbesserungen und etabliert einen rigorosen Standard für die Bewertung kreativen Schreibens.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.
PDF174February 8, 2026