WritingBench: Un Benchmark Completo per la Scrittura Generativa
WritingBench: A Comprehensive Benchmark for Generative Writing
March 7, 2025
Autori: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno significativamente migliorato le capacità di generazione del testo, tuttavia valutare le loro prestazioni nella scrittura generativa rimane una sfida. I benchmark esistenti si concentrano principalmente sulla generazione di testo generico o su compiti di scrittura limitati, non riuscendo a cogliere i requisiti diversificati dei contenuti scritti di alta qualità in vari domini. Per colmare questa lacuna, presentiamo WritingBench, un benchmark completo progettato per valutare gli LLM in 6 domini principali di scrittura e 100 sottodomini, che comprendono scrittura creativa, persuasiva, informativa e tecnica. Proponiamo inoltre un framework di valutazione dipendente dalla query che consente agli LLM di generare dinamicamente criteri di valutazione specifici per ogni istanza. Questo framework è integrato da un modello critico fine-tuned per il punteggio consapevole dei criteri, consentendo valutazioni su stile, formato e lunghezza. La validità del framework è ulteriormente dimostrata dalla sua capacità di curare i dati, che consente a modelli con 7 miliardi di parametri di avvicinarsi alle prestazioni state-of-the-art (SOTA). Rendiamo open-source il benchmark, insieme agli strumenti di valutazione e ai componenti modulari del framework, per promuovere lo sviluppo degli LLM nella scrittura.
English
Recent advancements in large language models (LLMs) have significantly
enhanced text generation capabilities, yet evaluating their performance in
generative writing remains a challenge. Existing benchmarks primarily focus on
generic text generation or limited in writing tasks, failing to capture the
diverse requirements of high-quality written contents across various domains.
To bridge this gap, we present WritingBench, a comprehensive benchmark designed
to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing
creative, persuasive, informative, and technical writing. We further propose a
query-dependent evaluation framework that empowers LLMs to dynamically generate
instance-specific assessment criteria. This framework is complemented by a
fine-tuned critic model for criteria-aware scoring, enabling evaluations in
style, format and length. The framework's validity is further demonstrated by
its data curation capability, which enables 7B-parameter models to approach
state-of-the-art (SOTA) performance. We open-source the benchmark, along with
evaluation tools and modular framework components, to advance the development
of LLMs in writing.Summary
AI-Generated Summary