ChatPaper.aiChatPaper

LitBench:創造的ライティングの信頼性ある評価のためのベンチマークとデータセット

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

July 1, 2025
著者: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber
cs.AI

要旨

大規模言語モデル(LLM)によって生成された創造的な文章を評価することは、オープンエンドの物語には正解が存在しないため、依然として困難な課題です。効果的な自動評価手法がない中で、既存の言語モデル(OTS)がゼロショットの評価者として使用されていますが、この文脈におけるその信頼性は不明確です。創造的な文章の堅牢な評価を目指して、私たちはLitBenchを導入しました。これは、創造的文章検証のための初の標準化されたベンチマークとペアデータセットであり、Redditから抽出された2,480件のバイアス除去済み人間ラベル付きストーリー比較からなるテストセットと、43,827ペアの人間の選好ラベルからなるトレーニングコーパスで構成されています。LitBenchを使用して、私たちは(i)ゼロショットLLM評価者のベンチマークを行い、(ii)Bradley Terryモデルと生成的報酬モデルをトレーニングし、(iii)新たにLLM生成されたストーリーに対する報酬モデルのランキングを検証するためのオンライン人間調査を実施しました。私たちのベンチマークでは、Claude-3.7-Sonnetが最も優れた既存の評価者であり、人間の選好との一致率は73%に達しました。トレーニングされた報酬モデルの中では、Bradley-Terryモデルと生成的報酬モデルの両方が78%の精度を達成し、すべての既存評価者を上回りました。オンライン人間調査では、トレーニングされた報酬モデルが新たにLLM生成されたストーリーにおいても一貫して人間の選好と一致することがさらに確認されました。私たちはLitBenchと報酬モデルをhttps://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461で公開し、創造的文章システムの信頼性のある自動評価と最適化のための検証済みリソースを提供しています。
English
Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.
PDF21July 7, 2025