LitBench : Un benchmark et un ensemble de données pour l'évaluation fiable de l'écriture créative
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
Auteurs: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
Résumé
L'évaluation de l'écriture créative générée par les grands modèles de langage (LLMs) reste un défi, car les récits ouverts ne disposent pas de vérités de référence. En l'absence de méthodes automatisées performantes pour l'évaluation, les modèles de langage prêts à l'emploi (OTS) sont utilisés comme juges en mode "zero-shot", mais leur fiabilité dans ce contexte reste incertaine. Dans le but d'établir une évaluation robuste de l'écriture créative, nous introduisons LitBench, le premier benchmark standardisé et jeu de données associé pour la vérification de l'écriture créative, comprenant un ensemble de test réservé de 2 480 comparaisons d'histoires débiaisées et étiquetées par des humains, issues de Reddit, ainsi qu'un corpus d'entraînement de 43 827 paires d'étiquettes de préférence humaine. En utilisant LitBench, nous (i) évaluons les juges LLM en mode "zero-shot", (ii) entraînons des modèles de récompense Bradley-Terry et génératifs, et (iii) menons une étude humaine en ligne pour valider les classements des modèles de récompense sur des histoires nouvellement générées par des LLM. Notre benchmark identifie Claude-3.7-Sonnet comme le juge prêt à l'emploi le plus performant, atteignant un accord de 73 % avec les préférences humaines ; parmi les modèles de récompense entraînés, les modèles Bradley-Terry et génératifs atteignent tous deux une précision de 78 %, surpassant tous les juges prêts à l'emploi. Une étude humaine en ligne confirme en outre que nos modèles de récompense entraînés s'alignent systématiquement avec les préférences humaines sur des histoires générées par des LLM inédites. Nous mettons LitBench et les modèles de récompense à disposition sur https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, offrant ainsi une ressource validée pour l'évaluation automatisée fiable et l'optimisation des systèmes d'écriture créative.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.