드라마벤치: 드라마 대본 연속 생성을 위한 6차원 평가 체계
DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation
December 22, 2025
저자: Shijian Ma, Yunqi Huang, Yan Lin
cs.AI
초록
드라마 대본 연속화는 모델이 캐릭터 일관성을 유지하고, 플롯을 논리적으로 전개하며, 극적 구조를 보존하는 능력을 요구하지만, 기존 벤치마크는 이러한 능력을 종합적으로 평가하지 못하고 있습니다. 본 연구에서는 6가지 독립적 차원(형식 준수, 서사 효율성, 캐릭터 일관성, 정서적 깊이, 논리 일관성, 갈등 처리)에 걸쳐 드라마 대본 연속화를 평가하는 최초의 대규모 벤치마크인 DramaBench를 소개합니다. 우리의 프레임워크는 규칙 기반 분석과 LLM 기반 라벨링 및 통계적 측정을 결합하여 객관적이고 재현 가능한 평가를 보장합니다. 1,103개 대본(총 8,824건 평가)에 대해 8개의 최신 언어 모델을 종합 평가하였으며, 엄격한 통계적 유의성 검정(252건의 쌍별 비교, 65.9% 유의)과 인간 검증(188개 대본, 5개 차원 중 3개 차원에서 실질적 일치)을 수행했습니다. 우리의 ablation 연구는 6개 차원 모두가 독립적인 품질 측면을 포착함을 확인합니다(평균 | r | = 0.020). DramaBench는 모델 개선을 위한 실행 가능한 차원별 피드백을 제공하며 창의적 글쓰기 평가를 위한 엄격한 표준을 수립합니다.
English
Drama script continuation requires models to maintain character consistency, advance plot coherently, and preserve dramatic structurecapabilities that existing benchmarks fail to evaluate comprehensively. We present DramaBench, the first large-scale benchmark for evaluating drama script continuation across six independent dimensions: Format Standards, Narrative Efficiency, Character Consistency, Emotional Depth, Logic Consistency, and Conflict Handling. Our framework combines rulebased analysis with LLM-based labeling and statistical metrics, ensuring objective and reproducible evaluation. We conduct comprehensive evaluation of 8 state-of-the-art language models on 1,103 scripts (8,824 evaluations total), with rigorous statistical significance testing (252 pairwise comparisons, 65.9% significant) and human validation (188 scripts, substantial agreement on 3/5 dimensions). Our ablation studies confirm all six dimensions capture independent quality aspects (mean | r | = 0.020). DramaBench provides actionable, dimensionspecific feedback for model improvement and establishes a rigorous standard for creative writing evaluation.