WritingBench: 生成型ライティングのための包括的ベンチマーク
WritingBench: A Comprehensive Benchmark for Generative Writing
March 7, 2025
著者: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI
要旨
大規模言語モデル(LLM)の最近の進歩により、テキスト生成能力が大幅に向上したものの、生成ライティングにおけるその性能評価は依然として課題となっている。既存のベンチマークは主に汎用的なテキスト生成や限定的なライティングタスクに焦点を当てており、様々なドメインにおける高品質な文章作成の多様な要件を捉えきれていない。このギャップを埋めるため、我々はWritingBenchを提案する。これは、創造的、説得的、情報的、技術的ライティングを含む6つの主要ライティングドメインと100のサブドメインにわたってLLMを評価するための包括的なベンチマークである。さらに、LLMがインスタンス固有の評価基準を動的に生成できるクエリ依存型評価フレームワークを提案する。このフレームワークは、スタイル、フォーマット、長さの評価を可能にする基準認識型スコアリングのためのファインチューニングされた批評モデルによって補完されている。このフレームワークの有効性は、7Bパラメータモデルが最先端(SOTA)性能に近づくことを可能にするデータキュレーション能力によってさらに実証されている。我々は、LLMのライティング分野における発展を促進するため、ベンチマークと評価ツール、モジュール型フレームワークコンポーネントをオープンソースとして公開する。
English
Recent advancements in large language models (LLMs) have significantly
enhanced text generation capabilities, yet evaluating their performance in
generative writing remains a challenge. Existing benchmarks primarily focus on
generic text generation or limited in writing tasks, failing to capture the
diverse requirements of high-quality written contents across various domains.
To bridge this gap, we present WritingBench, a comprehensive benchmark designed
to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing
creative, persuasive, informative, and technical writing. We further propose a
query-dependent evaluation framework that empowers LLMs to dynamically generate
instance-specific assessment criteria. This framework is complemented by a
fine-tuned critic model for criteria-aware scoring, enabling evaluations in
style, format and length. The framework's validity is further demonstrated by
its data curation capability, which enables 7B-parameter models to approach
state-of-the-art (SOTA) performance. We open-source the benchmark, along with
evaluation tools and modular framework components, to advance the development
of LLMs in writing.Summary
AI-Generated Summary