DramaBench: ドラマ脚本継続のための6次元評価フレームワーク
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
著者: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
要旨
ドラマ脚本の継続生成には、キャラクターの一貫性の維持、プロットの首尾一貫した進行、劇的構造の保持が求められるが、既存のベンチマークはこれらの能力を包括的に評価できていない。本研究では、6つの独立した次元(フォーマット規範、物語効率、キャラクター一貫性、感情的深み、論理一貫性、葛藤処理)にわたってドラマ脚本継続を評価する初の大規模ベンチマーク「DramaBench」を提案する。本フレームワークは、ルールベース分析とLLMベースのラベリング、統計的指標を組み合わせることで、客観的かつ再現性のある評価を実現する。1,103脚本(総評価数8,824件)を用いた8つの最先端言語モデルに対する包括的評価を実施し、厳密な統計的有意性検定(252組のペアワイズ比較、65.9%で有意)と人間による検証(188脚本、5次元中3次元で実質的合意)を行った。アブレーション研究では、6つの次元が全て独立した品質側面を捉えていることを確認した(平均|r| = 0.020)。DramaBenchはモデル改善のための具体的な次元別フィードバックを提供し、創造的著作評価の厳密な基準を確立する。
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.