LitBench: Um Benchmark e Conjunto de Dados para Avaliação Confiável de Escrita Criativa

Resumo

A avaliação de textos criativos gerados por modelos de linguagem de grande escala (LLMs) continua sendo um desafio, pois narrativas de natureza aberta carecem de verdades absolutas. Na ausência de métodos automatizados de avaliação eficazes, modelos de linguagem prontos para uso (off-the-shelf, OTS) são empregados como juízes zero-shot, mas sua confiabilidade nesse contexto ainda não é clara. Em busca de uma avaliação robusta para escrita criativa, apresentamos o LitBench, o primeiro benchmark padronizado e conjunto de dados pareados para verificação de escrita criativa, composto por um conjunto de teste reservado de 2.480 comparações de histórias desviadas e rotuladas por humanos, extraídas do Reddit, e um corpus de treinamento de 43.827 pares com rótulos de preferência humana. Utilizando o LitBench, nós (i) avaliamos juízes LLM zero-shot, (ii) treinamos modelos de recompensa Bradley-Terry e generativos, e (iii) conduzimos um estudo humano online para validar as classificações dos modelos de recompensa em histórias recém-geradas por LLMs. Nosso benchmark identifica o Claude-3.7-Sonnet como o juiz pronto para uso mais forte, alcançando 73% de concordância com as preferências humanas; entre os modelos de recompensa treinados, tanto o Bradley-Terry quanto os modelos generativos atingem uma precisão de 78%, superando todos os juízes prontos para uso. Um estudo humano online confirma ainda que nossos modelos de recompensa treinados estão consistentemente alinhados com as preferências humanas em histórias novas geradas por LLMs. Disponibilizamos o LitBench e os modelos de recompensa em https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, oferecendo um recurso validado para avaliação e otimização automatizada e confiável de sistemas de escrita criativa.

English

Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.

LitBench: Um Benchmark e Conjunto de Dados para Avaliação Confiável de Escrita Criativa

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

Resumo

Support