WebNovelBench : Positionner les romanciers LLM dans la distribution des romans web

papers.abstract

L'évaluation robuste des capacités de narration longue des modèles de langage à grande échelle (LLMs) reste un défi majeur, car les benchmarks existants manquent souvent d'échelle, de diversité ou de mesures objectives nécessaires. Pour y remédier, nous introduisons WebNovelBench, un nouveau benchmark spécifiquement conçu pour évaluer la génération de romans longs. WebNovelBench s'appuie sur un ensemble de données à grande échelle de plus de 4 000 romans web chinois, en cadrant l'évaluation comme une tâche de génération de synopsis à histoire. Nous proposons un cadre multidimensionnel englobant huit dimensions de qualité narrative, évaluées automatiquement via une approche LLM-as-Judge. Les scores sont agrégés à l'aide d'une analyse en composantes principales et mappés à un rang centile par rapport aux œuvres écrites par des humains. Nos expériences démontrent que WebNovelBench différencie efficacement les chefs-d'œuvre écrits par des humains, les romans web populaires et les contenus générés par des LLMs. Nous fournissons une analyse approfondie de 24 LLMs de pointe, classant leurs capacités narratives et offrant des perspectives pour leur développement futur. Ce benchmark propose une méthodologie évolutive, reproductible et basée sur les données pour évaluer et faire progresser la génération narrative pilotée par les LLMs.

English

Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.

WebNovelBench : Positionner les romanciers LLM dans la distribution des romans web

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

papers.abstract

Support