WritingBench: Комплексный бенчмарк для генеративного письма
WritingBench: A Comprehensive Benchmark for Generative Writing
March 7, 2025
Авторы: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) значительно улучшили возможности генерации текста, однако оценка их производительности в задачах генеративного письма остается сложной задачей. Существующие тестовые наборы в основном сосредоточены на общей генерации текста или ограниченных задачах письма, не охватывая разнообразные требования к высококачественному контенту в различных областях. Чтобы устранить этот пробел, мы представляем WritingBench — комплексный тестовый набор, разработанный для оценки LLM в 6 основных областях письма и 100 поддоменах, включая творческое, убедительное, информативное и техническое письмо. Мы также предлагаем зависимую от запроса систему оценки, которая позволяет LLM динамически генерировать критерии оценки, специфичные для каждого примера. Эта система дополнена тонко настроенной моделью-критиком для оценки с учетом критериев, что позволяет проводить анализ стиля, формата и длины текста. Дополнительно демонстрируется валидность системы благодаря ее способности к курированию данных, что позволяет моделям с 7 миллиардами параметров приближаться к уровню современных передовых (SOTA) решений. Мы открываем доступ к тестовому набору, инструментам оценки и модульным компонентам системы, чтобы способствовать развитию LLM в области письма.
English
Recent advancements in large language models (LLMs) have significantly
enhanced text generation capabilities, yet evaluating their performance in
generative writing remains a challenge. Existing benchmarks primarily focus on
generic text generation or limited in writing tasks, failing to capture the
diverse requirements of high-quality written contents across various domains.
To bridge this gap, we present WritingBench, a comprehensive benchmark designed
to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing
creative, persuasive, informative, and technical writing. We further propose a
query-dependent evaluation framework that empowers LLMs to dynamically generate
instance-specific assessment criteria. This framework is complemented by a
fine-tuned critic model for criteria-aware scoring, enabling evaluations in
style, format and length. The framework's validity is further demonstrated by
its data curation capability, which enables 7B-parameter models to approach
state-of-the-art (SOTA) performance. We open-source the benchmark, along with
evaluation tools and modular framework components, to advance the development
of LLMs in writing.Summary
AI-Generated Summary