LitBench: 창의적 글쓰기 평가를 위한 벤치마크 및 데이터셋
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
저자: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
초록
대규모 언어 모델(LLMs)이 생성한 창의적인 글쓰기를 평가하는 것은 개방형 서사가 명확한 기준을 갖고 있지 않기 때문에 여전히 어려운 과제로 남아 있다. 효과적인 자동 평가 방법이 부재한 상황에서, 기성 언어 모델(OTS)이 제로샷 평가자로 활용되고 있으나, 이러한 맥락에서의 신뢰성은 불분명하다. 창의적인 글쓰기에 대한 견고한 평가를 위해, 우리는 LitBench를 소개한다. 이는 창의적인 글쓰기 검증을 위한 첫 번째 표준화된 벤치마크 및 데이터셋으로, Reddit에서 추출한 2,480개의 편향이 제거된 인간이 라벨링한 이야기 비교를 포함한 테스트 세트와 43,827쌍의 인간 선호도 라벨로 구성된 훈련 코퍼스를 제공한다. LitBench를 활용하여, 우리는 (i) 제로샷 LLM 평가자를 벤치마킹하고, (ii) Bradley-Terry 및 생성적 보상 모델을 훈련시키며, (iii) 새롭게 LLM이 생성한 이야기에 대한 보상 모델의 순위를 검증하기 위한 온라인 인간 연구를 수행한다. 우리의 벤치마크는 Claude-3.7-Sonnet을 가장 강력한 기성 평가자로 식별하며, 인간 선호도와 73% 일치율을 달성한다; 훈련된 보상 모델 중에서는 Bradley-Terry와 생성적 보상 모델 모두 78%의 정확도를 달성하여 모든 기성 평가자를 능가한다. 온라인 인간 연구는 또한 우리가 훈련시킨 보상 모델이 새로운 LLM 생성 이야기에서도 인간 선호도와 일관되게 일치함을 추가로 확인한다. 우리는 LitBench와 보상 모델을 https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461에서 공개하여, 창의적인 글쓰기 시스템의 신뢰할 수 있는 자동 평가 및 최적화를 위한 검증된 리소스를 제공한다.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.