ChatPaper.aiChatPaper

WritingBench : Un Benchmark Complet pour l'Écriture Générative

WritingBench: A Comprehensive Benchmark for Generative Writing

March 7, 2025
Auteurs: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI

Résumé

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont considérablement amélioré les capacités de génération de texte, mais l'évaluation de leurs performances en écriture générative reste un défi. Les benchmarks existants se concentrent principalement sur la génération de texte générique ou sur des tâches d'écriture limitées, ne parvenant pas à capturer les exigences variées des contenus écrits de haute qualité dans divers domaines. Pour combler cette lacune, nous présentons WritingBench, un benchmark complet conçu pour évaluer les LLMs à travers 6 domaines d'écriture principaux et 100 sous-domaines, englobant l'écriture créative, persuasive, informative et technique. Nous proposons en outre un cadre d'évaluation dépendant des requêtes qui permet aux LLMs de générer dynamiquement des critères d'évaluation spécifiques à chaque instance. Ce cadre est complété par un modèle critique affiné pour un scoring basé sur les critères, permettant des évaluations en termes de style, format et longueur. La validité du cadre est en outre démontrée par sa capacité de curation de données, qui permet à des modèles de 7 milliards de paramètres d'approcher les performances de pointe (SOTA). Nous mettons à disposition en open-source le benchmark, ainsi que les outils d'évaluation et les composants modulaires du cadre, pour faire progresser le développement des LLMs en écriture.
English
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

Summary

AI-Generated Summary

PDF182March 11, 2025