ChatPaper.aiChatPaper

WebNovelBench: Het plaatsen van LLM-romanschrijvers in de webroman-distributie

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

May 20, 2025
Auteurs: Leon Lin, Jun Zheng, Haidong Wang
cs.AI

Samenvatting

Het robuust evalueren van de langetermijnverhalende capaciteiten van Large Language Models (LLM's) blijft een aanzienlijke uitdaging, aangezien bestaande benchmarks vaak de benodigde schaal, diversiteit of objectieve maatstaven missen. Om dit aan te pakken, introduceren we WebNovelBench, een nieuwe benchmark die specifiek is ontworpen voor het evalueren van langetermijnroman-generatie. WebNovelBench maakt gebruik van een grootschalige dataset van meer dan 4.000 Chinese webromans, waarbij de evaluatie wordt geframed als een synopsis-naar-verhaal-generatietaak. We stellen een veelzijdig raamwerk voor dat acht narratieve kwaliteitsdimensies omvat, die automatisch worden beoordeeld via een LLM-as-Judge-benadering. Scores worden geaggregeerd met behulp van Principal Component Analysis en gemapt naar een percentielrang ten opzichte van door mensen geschreven werken. Onze experimenten tonen aan dat WebNovelBench effectief onderscheid maakt tussen door mensen geschreven meesterwerken, populaire webromans en door LLM's gegenereerde inhoud. We bieden een uitgebreide analyse van 24 state-of-the-art LLM's, rangschikken hun verhalende vaardigheden en bieden inzichten voor toekomstige ontwikkeling. Deze benchmark biedt een schaalbare, reproduceerbare en data-gedreven methodologie voor het beoordelen en bevorderen van LLM-gedreven narratieve generatie.
English
Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.
PDF42May 22, 2025