WebNovelBench : Positionner les romanciers LLM dans la distribution des romans web
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
May 20, 2025
Auteurs: Leon Lin, Jun Zheng, Haidong Wang
cs.AI
Résumé
L'évaluation robuste des capacités de narration longue des modèles de langage à grande échelle (LLMs) reste un défi majeur, car les benchmarks existants manquent souvent d'échelle, de diversité ou de mesures objectives nécessaires. Pour y remédier, nous introduisons WebNovelBench, un nouveau benchmark spécifiquement conçu pour évaluer la génération de romans longs. WebNovelBench s'appuie sur un ensemble de données à grande échelle de plus de 4 000 romans web chinois, en cadrant l'évaluation comme une tâche de génération de synopsis à histoire. Nous proposons un cadre multidimensionnel englobant huit dimensions de qualité narrative, évaluées automatiquement via une approche LLM-as-Judge. Les scores sont agrégés à l'aide d'une analyse en composantes principales et mappés à un rang centile par rapport aux œuvres écrites par des humains. Nos expériences démontrent que WebNovelBench différencie efficacement les chefs-d'œuvre écrits par des humains, les romans web populaires et les contenus générés par des LLMs. Nous fournissons une analyse approfondie de 24 LLMs de pointe, classant leurs capacités narratives et offrant des perspectives pour leur développement futur. Ce benchmark propose une méthodologie évolutive, reproductible et basée sur les données pour évaluer et faire progresser la génération narrative pilotée par les LLMs.
English
Robustly evaluating the long-form storytelling capabilities of Large Language
Models (LLMs) remains a significant challenge, as existing benchmarks often
lack the necessary scale, diversity, or objective measures. To address this, we
introduce WebNovelBench, a novel benchmark specifically designed for evaluating
long-form novel generation. WebNovelBench leverages a large-scale dataset of
over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story
generation task. We propose a multi-faceted framework encompassing eight
narrative quality dimensions, assessed automatically via an LLM-as-Judge
approach. Scores are aggregated using Principal Component Analysis and mapped
to a percentile rank against human-authored works. Our experiments demonstrate
that WebNovelBench effectively differentiates between human-written
masterpieces, popular web novels, and LLM-generated content. We provide a
comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling
abilities and offering insights for future development. This benchmark provides
a scalable, replicable, and data-driven methodology for assessing and advancing
LLM-driven narrative generation.Summary
AI-Generated Summary