ChatPaper.aiChatPaper

WebNovelBench: Posicionando Autores de LLM na Distribuição de Web Novels

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

May 20, 2025
Autores: Leon Lin, Jun Zheng, Haidong Wang
cs.AI

Resumo

A avaliação robusta das capacidades de narrativa de longa duração dos Modelos de Linguagem de Grande Escala (LLMs) continua sendo um desafio significativo, uma vez que os benchmarks existentes frequentemente carecem da escala, diversidade ou medidas objetivas necessárias. Para abordar essa questão, introduzimos o WebNovelBench, um novo benchmark especificamente projetado para avaliar a geração de romances de longa duração. O WebNovelBench utiliza um conjunto de dados em larga escala de mais de 4.000 web novels chineses, enquadrando a avaliação como uma tarefa de geração de sinopse-para-história. Propomos um framework multifacetado que abrange oito dimensões de qualidade narrativa, avaliadas automaticamente por meio de uma abordagem LLM-as-Judge. As pontuações são agregadas usando Análise de Componentes Principais e mapeadas para uma classificação percentual em relação a obras escritas por humanos. Nossos experimentos demonstram que o WebNovelBench diferencia efetivamente entre obras-primas escritas por humanos, web novels populares e conteúdo gerado por LLMs. Fornecemos uma análise abrangente de 24 LLMs state-of-the-art, classificando suas habilidades de narrativa e oferecendo insights para o desenvolvimento futuro. Este benchmark oferece uma metodologia escalável, replicável e baseada em dados para avaliar e avançar a geração narrativa impulsionada por LLMs.
English
Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.
PDF42December 8, 2025