LitBench: Ein Benchmark und Datensatz zur zuverlässigen Bewertung kreativen Schreibens
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
Autoren: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
Zusammenfassung
Die Bewertung kreativer Texte, die von großen Sprachmodellen (LLMs) generiert werden, bleibt eine Herausforderung, da offene Erzählungen keine festen Bezugspunkte (Ground Truths) bieten. Ohne leistungsfähige automatisierte Bewertungsmethoden werden Standard-Sprachmodelle (off-the-shelf, OTS) als Zero-Shot-Bewerter eingesetzt, doch deren Zuverlässigkeit in diesem Kontext ist unklar. Um eine robuste Bewertung kreativer Texte zu ermöglichen, führen wir LitBench ein, den ersten standardisierten Benchmark und gepaarten Datensatz für die Überprüfung kreativer Texte. Dieser umfasst einen zurückgehaltenen Testdatensatz mit 2.480 entzerrten, von Menschen bewerteten Geschichtenvergleichen aus Reddit sowie ein Trainingskorpus mit 43.827 Paaren von menschlichen Präferenzlabels. Mit LitBench (i) benchmarken wir Zero-Shot-LLM-Bewerter, (ii) trainieren Bradley-Terry- und generative Belohnungsmodelle und (iii) führen eine Online-Studie mit menschlichen Teilnehmern durch, um die Rangfolgen der Belohnungsmodelle bei neu generierten LLM-Geschichten zu validieren. Unser Benchmark identifiziert Claude-3.7-Sonnet als den stärksten Standard-Bewerter, der eine Übereinstimmung von 73 % mit menschlichen Präferenzen erreicht; unter den trainierten Belohnungsmodellen erzielen sowohl Bradley-Terry- als auch generative Belohnungsmodelle eine Genauigkeit von 78 % und übertreffen damit alle Standard-Bewerter. Eine Online-Studie mit menschlichen Teilnehmern bestätigt weiterhin, dass unsere trainierten Belohnungsmodelle in neu generierten LLM-Geschichten konsistent mit menschlichen Präferenzen übereinstimmen. Wir veröffentlichen LitBench und die Belohnungsmodelle unter https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461 und bieten damit eine geprüfte Ressource für die zuverlässige, automatisierte Bewertung und Optimierung kreativer Schreibsysteme.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.