LitBench: Een Benchmark en Dataset voor Betrouwbare Evaluatie van Creatief Schrijven

Samenvatting

Het evalueren van creatief schrijven gegenereerd door grote taalmodellen (LLMs) blijft een uitdaging omdat open-einde verhalen geen vaste referentiepunten hebben. Zonder effectieve geautomatiseerde evaluatiemethoden worden kant-en-klare (OTS) taalmodellen ingezet als zero-shot beoordelaars, maar hun betrouwbaarheid in deze context is onduidelijk. Om robuuste evaluatie van creatief schrijven te bevorderen, introduceren we LitBench, de eerste gestandaardiseerde benchmark en bijbehorende dataset voor creatief schrijven verificatie, bestaande uit een afgezonderde testset van 2.480 ongebiaseerde, door mensen gelabelde verhaalvergelijkingen afkomstig van Reddit en een trainingscorpus van 43.827 paren met menselijke voorkeurslabels. Met LitBench (i) benchmarken we zero-shot LLM-beoordelaars, (ii) trainen we Bradley Terry- en generatieve beloningsmodellen, en (iii) voeren we een online menselijke studie uit om de rangschikkingen van beloningsmodellen te valideren op nieuw door LLM-gegenereerde verhalen. Onze benchmark identificeert Claude-3.7-Sonnet als de sterkste kant-en-klare beoordelaar, met een overeenstemming van 73% met menselijke voorkeuren; onder de getrainde beloningsmodellen behalen zowel Bradley-Terry- als generatieve beloningsmodellen een nauwkeurigheid van 78%, wat beter is dan alle kant-en-klare beoordelaars. Een online menselijke studie bevestigt verder dat onze getrainde beloningsmodellen consistent overeenkomen met menselijke voorkeuren in nieuwe door LLM-gegenereerde verhalen. We maken LitBench en de beloningsmodellen beschikbaar op https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, en bieden hiermee een gevalideerde bron voor betrouwbare, geautomatiseerde evaluatie en optimalisatie van creatief schrijfsystemen.

English

Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.

LitBench: Een Benchmark en Dataset voor Betrouwbare Evaluatie van Creatief Schrijven

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

Samenvatting

Support