ChatPaper.aiChatPaper

DiscoX: 専門分野における談話レベルの翻訳タスクのベンチマーク評価

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

November 14, 2025
著者: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI

要旨

専門知識領域における談話レベルの翻訳評価は、知識の普及や学際的な学術交流において中心的な役割を果たしているにもかかわらず、依然として不十分な状況にある。こうした翻訳には談話レベルの一貫性と厳密な用語の正確性が求められるが、現在の評価手法は主にセグメントレベルの正確性と流暢さに焦点を当てている。この課題を解決するため、我々は談話レベルかつ専門家レベルの中国語・英語翻訳における新たなベンチマーク「DiscoX」を提案する。これは7分野から収集した専門家監修のテキスト200件で構成され、平均トークン数は1700を超える。DiscoXの性能評価のために、正確性・流暢さ・適切性を細粒度で自動評価する参照文不要の評価システム「Metric-S」も開発した。Metric-Sは人間の判断と高い一致性を示し、既存の評価指標を大きく上回る性能を発揮する。実験結果から顕著な性能ギャップが明らかとなった:最先端の大規模言語モデルでさえ、これらの課題において人間の専門家に及ばないのである。この発見はDiscoXの難易度の高さを実証するとともに、専門家級の機械翻訳を実現する上で残された課題を浮き彫りにしている。提案するベンチマークと評価システムは、より厳格な評価のための堅牢な枠組みを提供し、大規模言語モデルに基づく翻訳技術の今後の発展を促進するものである。
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.
PDF42December 1, 2025