WebNovelBench: Colocando a los Novelistas de LLM en la Distribución de Novelas Web
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
May 20, 2025
Autores: Leon Lin, Jun Zheng, Haidong Wang
cs.AI
Resumen
Evaluar de manera robusta las capacidades de narración extensa de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) sigue siendo un desafío significativo, ya que los puntos de referencia existentes a menudo carecen de la escala, diversidad o medidas objetivas necesarias. Para abordar esto, presentamos WebNovelBench, un nuevo punto de referencia diseñado específicamente para evaluar la generación de novelas extensas. WebNovelBench aprovecha un conjunto de datos a gran escala de más de 4,000 novelas web chinas, enmarcando la evaluación como una tarea de generación de sinopsis a historia. Proponemos un marco multifacético que abarca ocho dimensiones de calidad narrativa, evaluadas automáticamente mediante un enfoque de LLM-como-Juez. Las puntuaciones se agregan utilizando Análisis de Componentes Principales y se mapean a un rango percentil en comparación con obras escritas por humanos. Nuestros experimentos demuestran que WebNovelBench diferencia efectivamente entre obras maestras escritas por humanos, novelas web populares y contenido generado por LLMs. Ofrecemos un análisis exhaustivo de 24 LLMs de vanguardia, clasificando sus habilidades narrativas y proporcionando ideas para su desarrollo futuro. Este punto de referencia proporciona una metodología escalable, replicable y basada en datos para evaluar y avanzar en la generación narrativa impulsada por LLMs.
English
Robustly evaluating the long-form storytelling capabilities of Large Language
Models (LLMs) remains a significant challenge, as existing benchmarks often
lack the necessary scale, diversity, or objective measures. To address this, we
introduce WebNovelBench, a novel benchmark specifically designed for evaluating
long-form novel generation. WebNovelBench leverages a large-scale dataset of
over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story
generation task. We propose a multi-faceted framework encompassing eight
narrative quality dimensions, assessed automatically via an LLM-as-Judge
approach. Scores are aggregated using Principal Component Analysis and mapped
to a percentile rank against human-authored works. Our experiments demonstrate
that WebNovelBench effectively differentiates between human-written
masterpieces, popular web novels, and LLM-generated content. We provide a
comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling
abilities and offering insights for future development. This benchmark provides
a scalable, replicable, and data-driven methodology for assessing and advancing
LLM-driven narrative generation.Summary
AI-Generated Summary