ChatPaper.aiChatPaper

WritingBench: Un punto de referencia integral para la escritura generativa

WritingBench: A Comprehensive Benchmark for Generative Writing

March 7, 2025
Autores: Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de generación de texto, aunque evaluar su desempeño en la escritura generativa sigue siendo un desafío. Los puntos de referencia existentes se centran principalmente en la generación de texto genérico o en tareas de escritura limitadas, sin capturar los diversos requisitos de contenidos escritos de alta calidad en distintos dominios. Para cerrar esta brecha, presentamos WritingBench, un punto de referencia integral diseñado para evaluar LLMs en 6 dominios principales de escritura y 100 subdominios, abarcando la escritura creativa, persuasiva, informativa y técnica. Además, proponemos un marco de evaluación dependiente de consultas que permite a los LLMs generar dinámicamente criterios de evaluación específicos para cada instancia. Este marco se complementa con un modelo crítico ajustado para puntuaciones conscientes de los criterios, permitiendo evaluaciones en estilo, formato y longitud. La validez del marco se demuestra además por su capacidad de curación de datos, que permite que modelos de 7 mil millones de parámetros se acerquen al rendimiento de vanguardia (SOTA). Hacemos público el punto de referencia, junto con herramientas de evaluación y componentes modulares del marco, para impulsar el desarrollo de LLMs en la escritura.
English
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework's validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.

Summary

AI-Generated Summary

PDF182March 11, 2025