LitBench: Ein Benchmark und Datensatz zur zuverlässigen Bewertung kreativen Schreibens

Zusammenfassung

Die Bewertung kreativer Texte, die von großen Sprachmodellen (LLMs) generiert werden, bleibt eine Herausforderung, da offene Erzählungen keine festen Bezugspunkte (Ground Truths) bieten. Ohne leistungsfähige automatisierte Bewertungsmethoden werden Standard-Sprachmodelle (off-the-shelf, OTS) als Zero-Shot-Bewerter eingesetzt, doch deren Zuverlässigkeit in diesem Kontext ist unklar. Um eine robuste Bewertung kreativer Texte zu ermöglichen, führen wir LitBench ein, den ersten standardisierten Benchmark und gepaarten Datensatz für die Überprüfung kreativer Texte. Dieser umfasst einen zurückgehaltenen Testdatensatz mit 2.480 entzerrten, von Menschen bewerteten Geschichtenvergleichen aus Reddit sowie ein Trainingskorpus mit 43.827 Paaren von menschlichen Präferenzlabels. Mit LitBench (i) benchmarken wir Zero-Shot-LLM-Bewerter, (ii) trainieren Bradley-Terry- und generative Belohnungsmodelle und (iii) führen eine Online-Studie mit menschlichen Teilnehmern durch, um die Rangfolgen der Belohnungsmodelle bei neu generierten LLM-Geschichten zu validieren. Unser Benchmark identifiziert Claude-3.7-Sonnet als den stärksten Standard-Bewerter, der eine Übereinstimmung von 73 % mit menschlichen Präferenzen erreicht; unter den trainierten Belohnungsmodellen erzielen sowohl Bradley-Terry- als auch generative Belohnungsmodelle eine Genauigkeit von 78 % und übertreffen damit alle Standard-Bewerter. Eine Online-Studie mit menschlichen Teilnehmern bestätigt weiterhin, dass unsere trainierten Belohnungsmodelle in neu generierten LLM-Geschichten konsistent mit menschlichen Präferenzen übereinstimmen. Wir veröffentlichen LitBench und die Belohnungsmodelle unter https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461 und bieten damit eine geprüfte Ressource für die zuverlässige, automatisierte Bewertung und Optimierung kreativer Schreibsysteme.

English

Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.

LitBench: Ein Benchmark und Datensatz zur zuverlässigen Bewertung kreativen Schreibens

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

Zusammenfassung

Support