LitBench: Un punto de referencia y conjunto de datos para la evaluación confiable de la escritura creativa
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing
July 1, 2025
Autores: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI
Resumen
Evaluar la escritura creativa generada por modelos de lenguaje de gran escala (LLMs) sigue siendo un desafío debido a que las narrativas de final abierto carecen de verdades de referencia. Sin métodos automatizados de evaluación eficientes, se emplean modelos de lenguaje estándar (OTS) como jueces de evaluación en modo zero-shot, aunque su fiabilidad en este contexto no está clara. En busca de una evaluación robusta para la escritura creativa, presentamos LitBench, el primer punto de referencia estandarizado y conjunto de datos emparejado para la verificación de escritura creativa, que incluye un conjunto de prueba reservado de 2,480 comparaciones de historias desviadas y etiquetadas por humanos extraídas de Reddit, y un corpus de entrenamiento de 43,827 pares con etiquetas de preferencia humana. Utilizando LitBench, (i) evaluamos jueces LLM en modo zero-shot, (ii) entrenamos modelos de recompensa Bradley-Terry y generativos, y (iii) realizamos un estudio humano en línea para validar las clasificaciones de los modelos de recompensa en historias generadas recientemente por LLMs. Nuestro punto de referencia identifica a Claude-3.7-Sonnet como el juez estándar más fuerte, alcanzando un 73% de concordancia con las preferencias humanas; entre los modelos de recompensa entrenados, tanto los modelos Bradley-Terry como los generativos logran una precisión del 78%, superando a todos los jueces estándar. Un estudio humano en línea confirma además que nuestros modelos de recompensa entrenados se alinean consistentemente con las preferencias humanas en historias nuevas generadas por LLMs. Publicamos LitBench y los modelos de recompensa en https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, proporcionando un recurso verificado para la evaluación y optimización automatizada confiable de sistemas de escritura creativa.
English
Evaluating creative writing generated by large language models (LLMs) remains
challenging because open-ended narratives lack ground truths. Without
performant automated evaluation methods, off-the-shelf (OTS) language models
are employed as zero-shot judges, yet their reliability is unclear in this
context. In pursuit of robust evaluation for creative writing, we introduce
LitBench, the first standardized benchmark and paired dataset for creative
writing verification, comprising a held-out test set of 2,480 debiased,
human-labeled story comparisons drawn from Reddit and a 43,827-pair training
corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot
LLM judges, (ii) train Bradley Terry and generative reward models, and (iii)
conduct an online human study to validate reward model rankings on newly
LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the
strongest off-the-shelf judge, reaching 73% agreement with human preferences;
among trained reward models, Bradley-Terry and Generative reward models both
attain an accuracy of 78%, outperforming all off-the-shelf judges. An online
human study further confirms that our trained reward models consistently align
with human preferences in novel LLM-generated stories. We release LitBench and
reward models at
https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461,
providing a vetted resource for reliable, automated evaluation and optimization
of creative writing systems.