WritingBench: Комплексный бенчмарк для генеративного письма

Аннотация

Последние достижения в области больших языковых моделей (LLM) значительно улучшили возможности генерации текста, однако оценка их производительности в задачах генеративного письма остается сложной задачей. Существующие тестовые наборы в основном сосредоточены на общей генерации текста или ограниченных задачах письма, не охватывая разнообразные требования к высококачественному контенту в различных областях. Чтобы устранить этот пробел, мы представляем WritingBench — комплексный тестовый набор, разработанный для оценки LLM в 6 основных областях письма и 100 поддоменах, включая творческое, убедительное, информативное и техническое письмо. Мы также предлагаем зависимую от запроса систему оценки, которая позволяет LLM динамически генерировать критерии оценки, специфичные для каждого примера. Эта система дополнена тонко настроенной моделью-критиком для оценки с учетом критериев, что позволяет проводить анализ стиля, формата и длины текста. Дополнительно демонстрируется валидность системы благодаря ее способности к курированию данных, что позволяет моделям с 7 миллиардами параметров приближаться к уровню современных передовых (SOTA) решений. Мы открываем доступ к тестовому набору, инструментам оценки и модульным компонентам системы, чтобы способствовать развитию LLM в области письма.

English

Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

WritingBench: Комплексный бенчмарк для генеративного письма

WritingBench: A Comprehensive Benchmark for Generative Writing

Аннотация

Support