LitBench: Een Benchmark en Dataset voor Betrouwbare Evaluatie van Creatief Schrijven
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
Auteurs: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
Samenvatting
Het evalueren van creatief schrijven gegenereerd door grote taalmodellen (LLMs) blijft een uitdaging omdat open-einde verhalen geen vaste referentiepunten hebben. Zonder effectieve geautomatiseerde evaluatiemethoden worden kant-en-klare (OTS) taalmodellen ingezet als zero-shot beoordelaars, maar hun betrouwbaarheid in deze context is onduidelijk. Om robuuste evaluatie van creatief schrijven te bevorderen, introduceren we LitBench, de eerste gestandaardiseerde benchmark en bijbehorende dataset voor creatief schrijven verificatie, bestaande uit een afgezonderde testset van 2.480 ongebiaseerde, door mensen gelabelde verhaalvergelijkingen afkomstig van Reddit en een trainingscorpus van 43.827 paren met menselijke voorkeurslabels. Met LitBench (i) benchmarken we zero-shot LLM-beoordelaars, (ii) trainen we Bradley Terry- en generatieve beloningsmodellen, en (iii) voeren we een online menselijke studie uit om de rangschikkingen van beloningsmodellen te valideren op nieuw door LLM-gegenereerde verhalen. Onze benchmark identificeert Claude-3.7-Sonnet als de sterkste kant-en-klare beoordelaar, met een overeenstemming van 73% met menselijke voorkeuren; onder de getrainde beloningsmodellen behalen zowel Bradley-Terry- als generatieve beloningsmodellen een nauwkeurigheid van 78%, wat beter is dan alle kant-en-klare beoordelaars. Een online menselijke studie bevestigt verder dat onze getrainde beloningsmodellen consistent overeenkomen met menselijke voorkeuren in nieuwe door LLM-gegenereerde verhalen. We maken LitBench en de beloningsmodellen beschikbaar op https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, en bieden hiermee een gevalideerde bron voor betrouwbare, geautomatiseerde evaluatie en optimalisatie van creatief schrijfsystemen.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.