ChatPaper.aiChatPaper

WebNovelBench: Оценка способностей LLM-авторов в создании веб-романов

WebNovelBench: Placing LLM Novelists on the Web Novel Distribution

May 20, 2025
Авторы: Leon Lin, Jun Zheng, Haidong Wang
cs.AI

Аннотация

Надежная оценка способностей крупных языковых моделей (LLM) к созданию длинных повествований остается серьезной проблемой, поскольку существующие тесты часто не обладают необходимым масштабом, разнообразием или объективными критериями. Для решения этой задачи мы представляем WebNovelBench — новый тест, специально разработанный для оценки генерации длинных романов. WebNovelBench использует масштабный набор данных, включающий более 4000 китайских веб-романов, и формулирует задачу оценки как генерацию истории на основе синопсиса. Мы предлагаем многогранную структуру, охватывающую восемь аспектов качества повествования, которые оцениваются автоматически с использованием подхода LLM-as-Judge. Оценки агрегируются с помощью метода главных компонент и сопоставляются с процентильным рангом по сравнению с произведениями, написанными людьми. Наши эксперименты показывают, что WebNovelBench эффективно различает шедевры, созданные людьми, популярные веб-романы и контент, сгенерированный LLM. Мы проводим всесторонний анализ 24 современных LLM, ранжируя их способности к повествованию и предлагая рекомендации для дальнейшего развития. Этот тест предоставляет масштабируемую, воспроизводимую и основанную на данных методологию для оценки и совершенствования генерации повествований с использованием LLM.
English
Robustly evaluating the long-form storytelling capabilities of Large Language Models (LLMs) remains a significant challenge, as existing benchmarks often lack the necessary scale, diversity, or objective measures. To address this, we introduce WebNovelBench, a novel benchmark specifically designed for evaluating long-form novel generation. WebNovelBench leverages a large-scale dataset of over 4,000 Chinese web novels, framing evaluation as a synopsis-to-story generation task. We propose a multi-faceted framework encompassing eight narrative quality dimensions, assessed automatically via an LLM-as-Judge approach. Scores are aggregated using Principal Component Analysis and mapped to a percentile rank against human-authored works. Our experiments demonstrate that WebNovelBench effectively differentiates between human-written masterpieces, popular web novels, and LLM-generated content. We provide a comprehensive analysis of 24 state-of-the-art LLMs, ranking their storytelling abilities and offering insights for future development. This benchmark provides a scalable, replicable, and data-driven methodology for assessing and advancing LLM-driven narrative generation.

Summary

AI-Generated Summary

PDF32May 22, 2025