ChatPaper.aiChatPaper

LitBench: Бенчмарк и набор данных для надежной оценки креативного письма

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

July 1, 2025
Авторы: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI

Аннотация

Оценка творческого письма, создаваемого крупными языковыми моделями (LLM), остается сложной задачей, поскольку открытые нарративы не имеют эталонных истин. В отсутствие эффективных автоматизированных методов оценки готовые (off-the-shelf, OTS) языковые модели используются в качестве судей с нулевым обучением (zero-shot), однако их надежность в данном контексте остается неясной. В поисках надежной оценки творческого письма мы представляем LitBench — первый стандартизированный бенчмарк и сопутствующий набор данных для проверки творческого письма, включающий тестовый набор из 2 480 сбалансированных, аннотированных человеком сравнений историй, взятых с Reddit, и обучающий корпус из 43 827 пар с метками предпочтений человека. Используя LitBench, мы (i) оцениваем судей-LLM с нулевым обучением, (ii) обучаем модели Брэдли-Терри и генеративные модели вознаграждения, а также (iii) проводим онлайн-исследование с участием людей для проверки ранжирования моделей вознаграждения на новых историях, сгенерированных LLM. Наш бенчмарк определяет Claude-3.7-Sonnet как наиболее эффективного готового судью, достигающего 73% согласия с предпочтениями человека; среди обученных моделей вознаграждения модели Брэдли-Терри и генеративные модели вознаграждения достигают точности 78%, превосходя всех готовых судей. Онлайн-исследование с участием людей дополнительно подтверждает, что наши обученные модели вознаграждения последовательно соответствуют предпочтениям человека в новых историях, сгенерированных LLM. Мы публикуем LitBench и модели вознаграждения по адресу https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, предоставляя проверенный ресурс для надежной автоматизированной оценки и оптимизации систем творческого письма.
English
Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.
PDF21July 7, 2025