WebNovelBench: Posizionare i romanzieri LLM nel panorama della distribuzione di web novel
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution
May 20, 2025
Autori: Leon Lin, Jun Zheng, Haidong Wang
cs.AI
Abstract
Valutare in modo robusto le capacità di narrazione a lungo termine dei Modelli Linguistici di Grande Dimensione (LLM) rimane una sfida significativa, poiché i benchmark esistenti spesso mancano della scala, diversità o misure oggettive necessarie. Per affrontare questo problema, introduciamo WebNovelBench, un nuovo benchmark specificamente progettato per valutare la generazione di romanzi a lungo termine. WebNovelBench sfrutta un dataset su larga scala di oltre 4.000 romanzi web cinesi, inquadrando la valutazione come un compito di generazione da sinossi a storia. Proponiamo un framework multi-faccettato che comprende otto dimensioni di qualità narrativa, valutate automaticamente attraverso un approccio LLM-as-Judge. I punteggi vengono aggregati utilizzando l'Analisi delle Componenti Principali e mappati su un rango percentile rispetto a opere scritte da esseri umani. I nostri esperimenti dimostrano che WebNovelBench differenzia efficacemente tra capolavori scritti da esseri umani, romanzi web popolari e contenuti generati da LLM. Forniamo un'analisi completa di 24 LLM all'avanguardia, classificando le loro capacità narrative e offrendo spunti per futuri sviluppi. Questo benchmark fornisce una metodologia scalabile, replicabile e basata sui dati per valutare e avanzare la generazione narrativa guidata da LLM.
English
Robustly evaluating the long-form storytelling capabilities of Large Language
Models (LLMs) remains a significant challenge, as existing benchmarks often
lack the necessary scale, diversity, or objective measures. To address this, we
introduce WebNovelBench, a novel benchmark specifically designed for evaluating
long-form novel generation. WebNovelBench leverages a large-scale dataset of
over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story
generation task. We propose a multi-faceted framework encompassing eight
narrative quality dimensions, assessed automatically via an LLM-as-Judge
approach. Scores are aggregated using Principal Component Analysis and mapped
to a percentile rank against human-authored works. Our experiments demonstrate
that WebNovelBench effectively differentiates between human-written
masterpieces, popular web novels, and LLM-generated content. We provide a
comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling
abilities and offering insights for future development. This benchmark provides
a scalable, replicable, and data-driven methodology for assessing and advancing
LLM-driven narrative generation.