DITING:ウェブ小説翻訳のベンチマーク評価のためのマルチエージェントフレームワーク
DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation
October 10, 2025
著者: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI
要旨
大規模言語モデル(LLM)は機械翻訳(MT)を大幅に進化させてきたが、ウェブ小説の翻訳における有効性は依然として不明確である。既存のベンチマークは表面的な指標に依存しており、このジャンルの特徴を捉えることができていない。これらの課題を解決するため、我々はDITINGを導入した。これはウェブ小説翻訳のための初の包括的評価フレームワークであり、慣用句翻訳、語彙の曖昧性、用語のローカライゼーション、時制の一貫性、ゼロ代名詞の解決、文化的安全性の6つの次元にわたって物語と文化の忠実度を評価する。18,000以上の専門家による注釈付き中国語-英語文ペアに基づいており、さらにAgentEvalを提案する。これは推論を駆使したマルチエージェント評価フレームワークで、専門家の審議をシミュレートし、語彙の重なりを超えた翻訳品質を評価する。7つの自動評価指標の中で人間の判断との最も高い相関を達成した。指標の比較を可能にするため、MetricAlignを開発した。これは300の文ペアからなるメタ評価データセットで、エラーレベルとスカラー品質スコアが注釈されている。14のオープン、クローズド、商用モデルの包括的評価により、中国語で訓練されたLLMがより大規模な外国製モデルを上回り、DeepSeek-V3が最も忠実で文体的一貫性のある翻訳を提供することが明らかになった。我々の研究は、LLMベースのウェブ小説翻訳を探求するための新たなパラダイムを確立し、将来の研究を進めるための公開リソースを提供するものである。
English
Large language models (LLMs) have substantially advanced machine translation
(MT), yet their effectiveness in translating web novels remains unclear.
Existing benchmarks rely on surface-level metrics that fail to capture the
distinctive traits of this genre. To address these gaps, we introduce DITING,
the first comprehensive evaluation framework for web novel translation,
assessing narrative and cultural fidelity across six dimensions: idiom
translation, lexical ambiguity, terminology localization, tense consistency,
zero-pronoun resolution, and cultural safety, supported by over 18K
expert-annotated Chinese-English sentence pairs. We further propose AgentEval,
a reasoning-driven multi-agent evaluation framework that simulates expert
deliberation to assess translation quality beyond lexical overlap, achieving
the highest correlation with human judgments among seven tested automatic
metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation
dataset of 300 sentence pairs annotated with error labels and scalar quality
scores. Comprehensive evaluation of fourteen open, closed, and commercial
models reveals that Chinese-trained LLMs surpass larger foreign counterparts,
and that DeepSeek-V3 delivers the most faithful and stylistically coherent
translations. Our work establishes a new paradigm for exploring LLM-based web
novel translation and provides public resources to advance future research.