WebNovelBench: Platzierung von LLM-Romanautoren in der Webroman-Verteilung

papers.abstract

Die robuste Bewertung der Fähigkeiten von Large Language Models (LLMs) zur Erstellung langformatiger Geschichten bleibt eine erhebliche Herausforderung, da bestehende Benchmarks oft den notwendigen Umfang, die Vielfalt oder objektive Maßstäbe vermissen lassen. Um dies zu adressieren, führen wir WebNovelBench ein, einen neuartigen Benchmark, der speziell für die Bewertung der Generierung langformatiger Romane entwickelt wurde. WebNovelBench nutzt einen umfangreichen Datensatz von über 4.000 chinesischen Webromanen und formuliert die Bewertung als eine Synopsis-zu-Geschichte-Generierungsaufgabe. Wir schlagen ein vielschichtiges Rahmenwerk vor, das acht narrative Qualitätsdimensionen umfasst, die automatisch über einen LLM-as-Judge-Ansatz bewertet werden. Die Bewertungen werden mithilfe der Hauptkomponentenanalyse aggregiert und in einen Prozentrang im Vergleich zu von Menschen verfassten Werken abgebildet. Unsere Experimente zeigen, dass WebNovelBench effektiv zwischen von Menschen geschriebenen Meisterwerken, populären Webromanen und LLM-generierten Inhalten unterscheidet. Wir bieten eine umfassende Analyse von 24 state-of-the-art LLMs, ordnen ihre Geschichtenerzählfähigkeiten ein und geben Einblicke für zukünftige Entwicklungen. Dieser Benchmark bietet eine skalierbare, reproduzierbare und datengetriebene Methodik zur Bewertung und Weiterentwicklung der LLM-gestützten narrativen Generierung.

English

Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.

WebNovelBench: Platzierung von LLM-Romanautoren in der Webroman-Verteilung

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

papers.abstract

Support