ChatPaper.aiChatPaper

DITING : Un Cadre d'Évaluation Multi-Agent pour le Benchmarking de la Traduction de Romans Web

DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

October 10, 2025
papers.authors: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont considérablement fait progresser la traduction automatique (MT), mais leur efficacité dans la traduction de romans web reste incertaine. Les benchmarks existants reposent sur des métriques superficielles qui ne parviennent pas à capturer les traits distinctifs de ce genre. Pour combler ces lacunes, nous introduisons DITING, le premier cadre d'évaluation complet pour la traduction de romans web, évaluant la fidélité narrative et culturelle à travers six dimensions : la traduction des idiomes, l'ambiguïté lexicale, la localisation des termes, la cohérence des temps, la résolution des pronoms zéro et la sécurité culturelle, soutenu par plus de 18 000 paires de phrases chinois-anglais annotées par des experts. Nous proposons également AgentEval, un cadre d'évaluation multi-agent basé sur le raisonnement qui simule la délibération d'experts pour évaluer la qualité de la traduction au-delà de la simple correspondance lexicale, atteignant la plus forte corrélation avec les jugements humains parmi sept métriques automatiques testées. Pour permettre la comparaison des métriques, nous développons MetricAlign, un ensemble de données méta-évaluation de 300 paires de phrases annotées avec des étiquettes d'erreur et des scores de qualité scalaires. Une évaluation complète de quatorze modèles ouverts, fermés et commerciaux révèle que les LLMs entraînés en chinois surpassent leurs homologues étrangers plus volumineux, et que DeepSeek-V3 fournit les traductions les plus fidèles et cohérentes sur le plan stylistique. Notre travail établit un nouveau paradigme pour explorer la traduction de romans web basée sur les LLMs et fournit des ressources publiques pour faire avancer les recherches futures.
English
Large language models (LLMs) have substantially advanced machine translation (MT), yet their effectiveness in translating web novels remains unclear. Existing benchmarks rely on surface-level metrics that fail to capture the distinctive traits of this genre. To address these gaps, we introduce DITING, the first comprehensive evaluation framework for web novel translation, assessing narrative and cultural fidelity across six dimensions: idiom translation, lexical ambiguity, terminology localization, tense consistency, zero-pronoun resolution, and cultural safety, supported by over 18K expert-annotated Chinese-English sentence pairs. We further propose AgentEval, a reasoning-driven multi-agent evaluation framework that simulates expert deliberation to assess translation quality beyond lexical overlap, achieving the highest correlation with human judgments among seven tested automatic metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation dataset of 300 sentence pairs annotated with error labels and scalar quality scores. Comprehensive evaluation of fourteen open, closed, and commercial models reveals that Chinese-trained LLMs surpass larger foreign counterparts, and that DeepSeek-V3 delivers the most faithful and stylistically coherent translations. Our work establishes a new paradigm for exploring LLM-based web novel translation and provides public resources to advance future research.
PDF942October 15, 2025