WebNovelBench: Het plaatsen van LLM-romanschrijvers in de webroman-distributie
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
May 20, 2025
Auteurs: Leon Lin, Jun Zheng, Haidong Wang
cs.AI
Samenvatting
Het robuust evalueren van de langetermijnverhalende capaciteiten van Large Language Models (LLM's) blijft een aanzienlijke uitdaging, aangezien bestaande benchmarks vaak de benodigde schaal, diversiteit of objectieve maatstaven missen. Om dit aan te pakken, introduceren we WebNovelBench, een nieuwe benchmark die specifiek is ontworpen voor het evalueren van langetermijnroman-generatie. WebNovelBench maakt gebruik van een grootschalige dataset van meer dan 4.000 Chinese webromans, waarbij de evaluatie wordt geframed als een synopsis-naar-verhaal-generatietaak. We stellen een veelzijdig raamwerk voor dat acht narratieve kwaliteitsdimensies omvat, die automatisch worden beoordeeld via een LLM-as-Judge-benadering. Scores worden geaggregeerd met behulp van Principal Component Analysis en gemapt naar een percentielrang ten opzichte van door mensen geschreven werken. Onze experimenten tonen aan dat WebNovelBench effectief onderscheid maakt tussen door mensen geschreven meesterwerken, populaire webromans en door LLM's gegenereerde inhoud. We bieden een uitgebreide analyse van 24 state-of-the-art LLM's, rangschikken hun verhalende vaardigheden en bieden inzichten voor toekomstige ontwikkeling. Deze benchmark biedt een schaalbare, reproduceerbare en data-gedreven methodologie voor het beoordelen en bevorderen van LLM-gedreven narratieve generatie.
English
Robustly evaluating the long-form storytelling capabilities of Large Language
Models (LLMs) remains a significant challenge, as existing benchmarks often
lack the necessary scale, diversity, or objective measures. To address this, we
introduce WebNovelBench, a novel benchmark specifically designed for evaluating
long-form novel generation. WebNovelBench leverages a large-scale dataset of
over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story
generation task. We propose a multi-faceted framework encompassing eight
narrative quality dimensions, assessed automatically via an LLM-as-Judge
approach. Scores are aggregated using Principal Component Analysis and mapped
to a percentile rank against human-authored works. Our experiments demonstrate
that WebNovelBench effectively differentiates between human-written
masterpieces, popular web novels, and LLM-generated content. We provide a
comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling
abilities and offering insights for future development. This benchmark provides
a scalable, replicable, and data-driven methodology for assessing and advancing
LLM-driven narrative generation.