LitBench: Um Benchmark e Conjunto de Dados para Avaliação Confiável de Escrita Criativa
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
Autores: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
Resumo
A avaliação de textos criativos gerados por modelos de linguagem de grande escala (LLMs) continua sendo um desafio, pois narrativas de natureza aberta carecem de verdades absolutas. Na ausência de métodos automatizados de avaliação eficazes, modelos de linguagem prontos para uso (off-the-shelf, OTS) são empregados como juízes zero-shot, mas sua confiabilidade nesse contexto ainda não é clara. Em busca de uma avaliação robusta para escrita criativa, apresentamos o LitBench, o primeiro benchmark padronizado e conjunto de dados pareados para verificação de escrita criativa, composto por um conjunto de teste reservado de 2.480 comparações de histórias desviadas e rotuladas por humanos, extraídas do Reddit, e um corpus de treinamento de 43.827 pares com rótulos de preferência humana. Utilizando o LitBench, nós (i) avaliamos juízes LLM zero-shot, (ii) treinamos modelos de recompensa Bradley-Terry e generativos, e (iii) conduzimos um estudo humano online para validar as classificações dos modelos de recompensa em histórias recém-geradas por LLMs. Nosso benchmark identifica o Claude-3.7-Sonnet como o juiz pronto para uso mais forte, alcançando 73% de concordância com as preferências humanas; entre os modelos de recompensa treinados, tanto o Bradley-Terry quanto os modelos generativos atingem uma precisão de 78%, superando todos os juízes prontos para uso. Um estudo humano online confirma ainda que nossos modelos de recompensa treinados estão consistentemente alinhados com as preferências humanas em histórias novas geradas por LLMs. Disponibilizamos o LitBench e os modelos de recompensa em https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, oferecendo um recurso validado para avaliação e otimização automatizada e confiável de sistemas de escrita criativa.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.