ChatPaper.aiChatPaper

DITING: Um Framework de Avaliação Multiagente para Benchmarking de Tradução de Web Novels

DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

October 10, 2025
Autores: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) avançaram substancialmente a tradução automática (MT), mas sua eficácia na tradução de web novels ainda não é clara. Os benchmarks existentes dependem de métricas superficiais que não capturam as características distintivas desse gênero. Para abordar essas lacunas, introduzimos o DITING, o primeiro framework de avaliação abrangente para tradução de web novels, avaliando a fidelidade narrativa e cultural em seis dimensões: tradução de expressões idiomáticas, ambiguidade lexical, localização de terminologia, consistência de tempo verbal, resolução de pronomes zero e segurança cultural, apoiado por mais de 18 mil pares de frases chinês-inglês anotados por especialistas. Propomos ainda o AgentEval, um framework de avaliação multiagente orientado por raciocínio que simula a deliberação de especialistas para avaliar a qualidade da tradução além da sobreposição lexical, alcançando a maior correlação com julgamentos humanos entre sete métricas automáticas testadas. Para permitir a comparação de métricas, desenvolvemos o MetricAlign, um conjunto de dados de meta-avaliação com 300 pares de frases anotados com rótulos de erro e pontuações escalares de qualidade. A avaliação abrangente de quatorze modelos abertos, fechados e comerciais revela que os LLMs treinados em chinês superam contrapartes estrangeiras maiores, e que o DeepSeek-V3 oferece as traduções mais fiéis e estilisticamente coerentes. Nosso trabalho estabelece um novo paradigma para explorar a tradução de web novels baseada em LLMs e fornece recursos públicos para impulsionar pesquisas futuras.
English
Large language models (LLMs) have substantially advanced machine translation (MT), yet their effectiveness in translating web novels remains unclear. Existing benchmarks rely on surface-level metrics that fail to capture the distinctive traits of this genre. To address these gaps, we introduce DITING, the first comprehensive evaluation framework for web novel translation, assessing narrative and cultural fidelity across six dimensions: idiom translation, lexical ambiguity, terminology localization, tense consistency, zero-pronoun resolution, and cultural safety, supported by over 18K expert-annotated Chinese-English sentence pairs. We further propose AgentEval, a reasoning-driven multi-agent evaluation framework that simulates expert deliberation to assess translation quality beyond lexical overlap, achieving the highest correlation with human judgments among seven tested automatic metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation dataset of 300 sentence pairs annotated with error labels and scalar quality scores. Comprehensive evaluation of fourteen open, closed, and commercial models reveals that Chinese-trained LLMs surpass larger foreign counterparts, and that DeepSeek-V3 delivers the most faithful and stylistically coherent translations. Our work establishes a new paradigm for exploring LLM-based web novel translation and provides public resources to advance future research.
PDF942October 15, 2025