DITING: Ein Multi-Agenten-Bewertungsrahmen zur Benchmarking von Web-Roman-Übersetzungen

papers.abstract

Große Sprachmodelle (LLMs) haben die maschinelle Übersetzung (MT) erheblich vorangetrieben, doch ihre Wirksamkeit bei der Übersetzung von Webnovels bleibt unklar. Bestehende Benchmarks stützen sich auf oberflächliche Metriken, die die charakteristischen Merkmale dieses Genres nicht erfassen. Um diese Lücken zu schließen, führen wir DITING ein, den ersten umfassenden Bewertungsrahmen für die Übersetzung von Webnovels, der die narrative und kulturelle Treue in sechs Dimensionen bewertet: Idiomübersetzung, lexikalische Mehrdeutigkeit, Terminologielokalisierung, Tempuskonsistenz, Nullpronomenauflösung und kulturelle Sicherheit, unterstützt durch über 18.000 von Experten annotierte chinesisch-englische Satzpaare. Wir schlagen weiterhin AgentEval vor, ein vernunftgesteuertes Multi-Agenten-Bewertungssystem, das die Expertenberatung simuliert, um die Übersetzungsqualität über die lexikalische Übereinstimmung hinaus zu bewerten und dabei die höchste Korrelation mit menschlichen Bewertungen unter sieben getesteten automatischen Metriken erreicht. Um den Vergleich von Metriken zu ermöglichen, entwickeln wir MetricAlign, ein Meta-Bewertungsdatensatz von 300 Satzpaaren, die mit Fehleretiketten und skalaren Qualitätsbewertungen annotiert sind. Eine umfassende Bewertung von vierzehn offenen, geschlossenen und kommerziellen Modellen zeigt, dass in China trainierte LLMs größere ausländische Gegenstücke übertreffen und dass DeepSeek-V3 die treuesten und stilistisch kohärentesten Übersetzungen liefert. Unsere Arbeit etabliert ein neues Paradigma für die Erforschung von LLM-basierter Webnovel-Übersetzung und stellt öffentliche Ressourcen zur Verfügung, um zukünftige Forschungen voranzutreiben.

English

Large language models (LLMs) have substantially advanced machine translation (MT), yet their effectiveness in translating web novels remains unclear. Existing benchmarks rely on surface-level metrics that fail to capture the distinctive traits of this genre. To address these gaps, we introduce DITING, the first comprehensive evaluation framework for web novel translation, assessing narrative and cultural fidelity across six dimensions: idiom translation, lexical ambiguity, terminology localization, tense consistency, zero-pronoun resolution, and cultural safety, supported by over 18K expert-annotated Chinese-English sentence pairs. We further propose AgentEval, a reasoning-driven multi-agent evaluation framework that simulates expert deliberation to assess translation quality beyond lexical overlap, achieving the highest correlation with human judgments among seven tested automatic metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation dataset of 300 sentence pairs annotated with error labels and scalar quality scores. Comprehensive evaluation of fourteen open, closed, and commercial models reveals that Chinese-trained LLMs surpass larger foreign counterparts, and that DeepSeek-V3 delivers the most faithful and stylistically coherent translations. Our work establishes a new paradigm for exploring LLM-based web novel translation and provides public resources to advance future research.

DITING: Ein Multi-Agenten-Bewertungsrahmen zur Benchmarking von Web-Roman-Übersetzungen

DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

papers.abstract

Support