ChatPaper.aiChatPaper

DITING: 웹 소설 번역 벤치마킹을 위한 다중 에이전트 평가 프레임워크

DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

October 10, 2025
저자: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie
cs.AI

초록

대형 언어 모델(LLM)은 기계 번역(MT)을 크게 발전시켰으나, 웹 소설 번역에서의 효과성은 여전히 불분명합니다. 기존 벤치마크는 이 장르의 독특한 특성을 포착하지 못하는 표면적 지표에 의존하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 웹 소설 번역을 위한 첫 번째 포괄적인 평가 프레임워크인 DITING을 소개합니다. 이 프레임워크는 관용구 번역, 어휘적 모호성, 용어 현지화, 시제 일관성, 영대명사 해결, 문화적 안전성 등 6가지 차원에서 서사와 문화적 충실도를 평가하며, 18,000개 이상의 전문가 주석이 달린 중국어-영어 문장 쌍을 기반으로 합니다. 또한, 우리는 전문가 심의를 시뮬레이션하여 어휘 중첩을 넘어 번역 품질을 평가하는 추론 기반 다중 에이전트 평가 프레임워크인 AgentEval을 제안합니다. 이는 7가지 테스트된 자동 평가 지표 중 인간 판단과 가장 높은 상관관계를 달성했습니다. 지표 비교를 위해, 우리는 오류 레이블과 스칼라 품질 점수가 주석된 300개의 문장 쌍으로 구성된 메타 평가 데이터셋인 MetricAlign을 개발했습니다. 14개의 오픈, 클로즈드, 상용 모델에 대한 포괄적인 평가 결과, 중국어로 훈련된 LLM이 더 큰 외국 모델을 능가하며, DeepSeek-V3이 가장 충실하고 스타일적으로 일관된 번역을 제공하는 것으로 나타났습니다. 우리의 작업은 LLM 기반 웹 소설 번역 탐구를 위한 새로운 패러다임을 정립하고, 향후 연구를 촉진하기 위한 공공 자원을 제공합니다.
English
Large language models (LLMs) have substantially advanced machine translation (MT), yet their effectiveness in translating web novels remains unclear. Existing benchmarks rely on surface-level metrics that fail to capture the distinctive traits of this genre. To address these gaps, we introduce DITING, the first comprehensive evaluation framework for web novel translation, assessing narrative and cultural fidelity across six dimensions: idiom translation, lexical ambiguity, terminology localization, tense consistency, zero-pronoun resolution, and cultural safety, supported by over 18K expert-annotated Chinese-English sentence pairs. We further propose AgentEval, a reasoning-driven multi-agent evaluation framework that simulates expert deliberation to assess translation quality beyond lexical overlap, achieving the highest correlation with human judgments among seven tested automatic metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation dataset of 300 sentence pairs annotated with error labels and scalar quality scores. Comprehensive evaluation of fourteen open, closed, and commercial models reveals that Chinese-trained LLMs surpass larger foreign counterparts, and that DeepSeek-V3 delivers the most faithful and stylistically coherent translations. Our work establishes a new paradigm for exploring LLM-based web novel translation and provides public resources to advance future research.
PDF942October 15, 2025