ChatPaper.aiChatPaper

WritingBench: Um Benchmark Abrangente para Escrita Generativa

WritingBench: A Comprehensive Benchmark for Generative Writing

March 7, 2025
Autores: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês) têm aprimorado significativamente as capacidades de geração de texto, mas a avaliação de seu desempenho na escrita generativa continua sendo um desafio. Os benchmarks existentes concentram-se principalmente na geração de texto genérico ou em tarefas de escrita limitadas, falhando em capturar os diversos requisitos de conteúdos escritos de alta qualidade em vários domínios. Para preencher essa lacuna, apresentamos o WritingBench, um benchmark abrangente projetado para avaliar LLMs em 6 domínios principais de escrita e 100 subdomínios, abrangendo escrita criativa, persuasiva, informativa e técnica. Além disso, propomos um framework de avaliação dependente de consulta que capacita os LLMs a gerar dinamicamente critérios de avaliação específicos para cada instância. Esse framework é complementado por um modelo crítico ajustado para pontuação consciente dos critérios, permitindo avaliações em estilo, formato e extensão. A validade do framework é ainda demonstrada por sua capacidade de curadoria de dados, que permite que modelos com 7 bilhões de parâmetros se aproximem do desempenho de ponta (SOTA, na sigla em inglês). Disponibilizamos o benchmark em código aberto, juntamente com ferramentas de avaliação e componentes modulares do framework, para impulsionar o desenvolvimento de LLMs na escrita.
English
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

Summary

AI-Generated Summary

PDF182March 11, 2025