DITING: Un Framework di Valutazione Multi-Agente per il Benchmarking della Traduzione di Romanzi Web
DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation
October 10, 2025
Autori: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno fatto progressi significativi nella traduzione automatica (MT), ma la loro efficacia nella traduzione di web novel rimane poco chiara. I benchmark esistenti si basano su metriche superficiali che non riescono a cogliere le caratteristiche distintive di questo genere. Per colmare queste lacune, introduciamo DITING, il primo framework di valutazione completo per la traduzione di web novel, che valuta la fedeltà narrativa e culturale attraverso sei dimensioni: traduzione di modi di dire, ambiguità lessicale, localizzazione terminologica, coerenza temporale, risoluzione dei pronomi zero e sicurezza culturale, supportato da oltre 18.000 coppie di frasi cinese-inglese annotate da esperti. Proponiamo inoltre AgentEval, un framework di valutazione multi-agente basato sul ragionamento che simula la deliberazione di esperti per valutare la qualità della traduzione oltre la semplice sovrapposizione lessicale, raggiungendo la più alta correlazione con i giudizi umani tra sette metriche automatiche testate. Per consentire il confronto delle metriche, sviluppiamo MetricAlign, un dataset di meta-valutazione composto da 300 coppie di frasi annotate con etichette di errore e punteggi scalari di qualità. Una valutazione completa di quattordici modelli open, closed e commerciali rivela che gli LLM addestrati in Cina superano i loro omologhi stranieri più grandi e che DeepSeek-V3 fornisce le traduzioni più fedeli e stilisticamente coerenti. Il nostro lavoro stabilisce un nuovo paradigma per esplorare la traduzione di web novel basata su LLM e fornisce risorse pubbliche per promuovere la ricerca futura.
English
Large language models (LLMs) have substantially advanced machine translation
(MT), yet their effectiveness in translating web novels remains unclear.
Existing benchmarks rely on surface-level metrics that fail to capture the
distinctive traits of this genre. To address these gaps, we introduce DITING,
the first comprehensive evaluation framework for web novel translation,
assessing narrative and cultural fidelity across six dimensions: idiom
translation, lexical ambiguity, terminology localization, tense consistency,
zero-pronoun resolution, and cultural safety, supported by over 18K
expert-annotated Chinese-English sentence pairs. We further propose AgentEval,
a reasoning-driven multi-agent evaluation framework that simulates expert
deliberation to assess translation quality beyond lexical overlap, achieving
the highest correlation with human judgments among seven tested automatic
metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation
dataset of 300 sentence pairs annotated with error labels and scalar quality
scores. Comprehensive evaluation of fourteen open, closed, and commercial
models reveals that Chinese-trained LLMs surpass larger foreign counterparts,
and that DeepSeek-V3 delivers the most faithful and stylistically coherent
translations. Our work establishes a new paradigm for exploring LLM-based web
novel translation and provides public resources to advance future research.