DITING: Ein Multi-Agenten-Bewertungsrahmen zur Benchmarking von Web-Roman-Übersetzungen
DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation
October 10, 2025
papers.authors: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben die maschinelle Übersetzung (MT) erheblich vorangetrieben, doch ihre Wirksamkeit bei der Übersetzung von Webnovels bleibt unklar. Bestehende Benchmarks stützen sich auf oberflächliche Metriken, die die charakteristischen Merkmale dieses Genres nicht erfassen. Um diese Lücken zu schließen, führen wir DITING ein, den ersten umfassenden Bewertungsrahmen für die Übersetzung von Webnovels, der die narrative und kulturelle Treue in sechs Dimensionen bewertet: Idiomübersetzung, lexikalische Mehrdeutigkeit, Terminologielokalisierung, Tempuskonsistenz, Nullpronomenauflösung und kulturelle Sicherheit, unterstützt durch über 18.000 von Experten annotierte chinesisch-englische Satzpaare. Wir schlagen weiterhin AgentEval vor, ein vernunftgesteuertes Multi-Agenten-Bewertungssystem, das die Expertenberatung simuliert, um die Übersetzungsqualität über die lexikalische Übereinstimmung hinaus zu bewerten und dabei die höchste Korrelation mit menschlichen Bewertungen unter sieben getesteten automatischen Metriken erreicht. Um den Vergleich von Metriken zu ermöglichen, entwickeln wir MetricAlign, ein Meta-Bewertungsdatensatz von 300 Satzpaaren, die mit Fehleretiketten und skalaren Qualitätsbewertungen annotiert sind. Eine umfassende Bewertung von vierzehn offenen, geschlossenen und kommerziellen Modellen zeigt, dass in China trainierte LLMs größere ausländische Gegenstücke übertreffen und dass DeepSeek-V3 die treuesten und stilistisch kohärentesten Übersetzungen liefert. Unsere Arbeit etabliert ein neues Paradigma für die Erforschung von LLM-basierter Webnovel-Übersetzung und stellt öffentliche Ressourcen zur Verfügung, um zukünftige Forschungen voranzutreiben.
English
Large language models (LLMs) have substantially advanced machine translation
(MT), yet their effectiveness in translating web novels remains unclear.
Existing benchmarks rely on surface-level metrics that fail to capture the
distinctive traits of this genre. To address these gaps, we introduce DITING,
the first comprehensive evaluation framework for web novel translation,
assessing narrative and cultural fidelity across six dimensions: idiom
translation, lexical ambiguity, terminology localization, tense consistency,
zero-pronoun resolution, and cultural safety, supported by over 18K
expert-annotated Chinese-English sentence pairs. We further propose AgentEval,
a reasoning-driven multi-agent evaluation framework that simulates expert
deliberation to assess translation quality beyond lexical overlap, achieving
the highest correlation with human judgments among seven tested automatic
metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation
dataset of 300 sentence pairs annotated with error labels and scalar quality
scores. Comprehensive evaluation of fourteen open, closed, and commercial
models reveals that Chinese-trained LLMs surpass larger foreign counterparts,
and that DeepSeek-V3 delivers the most faithful and stylistically coherent
translations. Our work establishes a new paradigm for exploring LLM-based web
novel translation and provides public resources to advance future research.