WebNovelBench: Platzierung von LLM-Romanautoren in der Webroman-Verteilung
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
May 20, 2025
Autoren: Leon Lin, Jun Zheng, Haidong Wang
cs.AI
Zusammenfassung
Die robuste Bewertung der Fähigkeiten von Large Language Models (LLMs) zur Erstellung langformatiger Geschichten bleibt eine erhebliche Herausforderung, da bestehende Benchmarks oft den notwendigen Umfang, die Vielfalt oder objektive Maßstäbe vermissen lassen. Um dies zu adressieren, führen wir WebNovelBench ein, einen neuartigen Benchmark, der speziell für die Bewertung der Generierung langformatiger Romane entwickelt wurde. WebNovelBench nutzt einen umfangreichen Datensatz von über 4.000 chinesischen Webromanen und formuliert die Bewertung als eine Synopsis-zu-Geschichte-Generierungsaufgabe. Wir schlagen ein vielschichtiges Rahmenwerk vor, das acht narrative Qualitätsdimensionen umfasst, die automatisch über einen LLM-as-Judge-Ansatz bewertet werden. Die Bewertungen werden mithilfe der Hauptkomponentenanalyse aggregiert und in einen Prozentrang im Vergleich zu von Menschen verfassten Werken abgebildet. Unsere Experimente zeigen, dass WebNovelBench effektiv zwischen von Menschen geschriebenen Meisterwerken, populären Webromanen und LLM-generierten Inhalten unterscheidet. Wir bieten eine umfassende Analyse von 24 state-of-the-art LLMs, ordnen ihre Geschichtenerzählfähigkeiten ein und geben Einblicke für zukünftige Entwicklungen. Dieser Benchmark bietet eine skalierbare, reproduzierbare und datengetriebene Methodik zur Bewertung und Weiterentwicklung der LLM-gestützten narrativen Generierung.
English
Robustly evaluating the long-form storytelling capabilities of Large Language
Models (LLMs) remains a significant challenge, as existing benchmarks often
lack the necessary scale, diversity, or objective measures. To address this, we
introduce WebNovelBench, a novel benchmark specifically designed for evaluating
long-form novel generation. WebNovelBench leverages a large-scale dataset of
over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story
generation task. We propose a multi-faceted framework encompassing eight
narrative quality dimensions, assessed automatically via an LLM-as-Judge
approach. Scores are aggregated using Principal Component Analysis and mapped
to a percentile rank against human-authored works. Our experiments demonstrate
that WebNovelBench effectively differentiates between human-written
masterpieces, popular web novels, and LLM-generated content. We provide a
comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling
abilities and offering insights for future development. This benchmark provides
a scalable, replicable, and data-driven methodology for assessing and advancing
LLM-driven narrative generation.Summary
AI-Generated Summary