ChatPaper.aiChatPaper

LitBench: Un Benchmark e Dataset per la Valutazione Affidabile della Scrittura Creativa

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

July 1, 2025
Autori: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI

Abstract

Valutare la scrittura creativa generata da modelli linguistici di grandi dimensioni (LLM) rimane una sfida poiché le narrazioni aperte mancano di verità di riferimento. In assenza di metodi di valutazione automatizzati performanti, i modelli linguistici pronti all'uso (OTS) vengono impiegati come giudici zero-shot, ma la loro affidabilità in questo contesto non è chiara. Alla ricerca di una valutazione robusta per la scrittura creativa, introduciamo LitBench, il primo benchmark standardizzato e dataset accoppiato per la verifica della scrittura creativa, comprendente un set di test riservato di 2.480 confronti di storie sbilanciate e etichettate manualmente provenienti da Reddit e un corpus di addestramento di 43.827 coppie con etichette di preferenza umana. Utilizzando LitBench, (i) valutiamo i giudici LLM zero-shot, (ii) addestriamo modelli di ricompensa Bradley-Terry e generativi, e (iii) conduciamo uno studio umano online per validare le classificazioni dei modelli di ricompensa su nuove storie generate da LLM. Il nostro benchmark identifica Claude-3.7-Sonnet come il giudice pronto all'uso più forte, raggiungendo il 73% di accordo con le preferenze umane; tra i modelli di ricompensa addestrati, sia il modello Bradley-Terry che quello generativo raggiungono un'accuratezza del 78%, superando tutti i giudici pronti all'uso. Uno studio umano online conferma ulteriormente che i nostri modelli di ricompensa addestrati si allineano costantemente con le preferenze umane in nuove storie generate da LLM. Rilasciamo LitBench e i modelli di ricompensa su https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, fornendo una risorsa verificata per una valutazione e ottimizzazione affidabile e automatizzata dei sistemi di scrittura creativa.
English
Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.
PDF42July 7, 2025