ChatPaper.aiChatPaper

WritingBench: Een Uitgebreide Benchmark voor Generatief Schrijven

WritingBench: A Comprehensive Benchmark for Generative Writing

March 7, 2025
Auteurs: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de mogelijkheden voor tekstgeneratie aanzienlijk verbeterd, maar het evalueren van hun prestaties in generatief schrijven blijft een uitdaging. Bestaande benchmarks richten zich voornamelijk op generieke tekstgeneratie of beperkte schrijftaken, waardoor ze niet voldoen aan de diverse vereisten van hoogwaardige geschreven inhoud in verschillende domeinen. Om deze kloof te overbruggen, presenteren we WritingBench, een uitgebreide benchmark die is ontworpen om LLMs te evalueren over 6 kernschrijfdomeinen en 100 subdomeinen, waaronder creatief, overtuigend, informatief en technisch schrijven. We introduceren verder een query-afhankelijk evaluatieraamwerk dat LLMs in staat stelt om dynamisch instancespecifieke beoordelingscriteria te genereren. Dit raamwerk wordt aangevuld met een fijn afgestemd criticusmodel voor criteria-bewuste scoring, waardoor evaluaties op het gebied van stijl, opmaak en lengte mogelijk worden. De geldigheid van het raamwerk wordt verder aangetoond door zijn mogelijkheid tot datacuratie, waardoor modellen met 7B parameters de prestaties van state-of-the-art (SOTA) benaderen. We maken de benchmark, samen met evaluatietools en modulaire raamwerkcomponenten, open source om de ontwikkeling van LLMs in schrijven te bevorderen.
English
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

Summary

AI-Generated Summary

PDF182March 11, 2025