DiscoX : Évaluation de la traduction au niveau discursif dans les domaines experts
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
November 14, 2025
papers.authors: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI
papers.abstract
L'évaluation de la traduction au niveau discursif dans les domaines experts reste insuffisante, malgré son importance centrale pour la diffusion des connaissances et la communication scientifique multilingue. Bien que ces traductions exigent une cohérence discursive et une précision terminologique rigoureuse, les méthodes d'évaluation actuelles se concentrent principalement sur l'exactitude et la fluidité au niveau segmentaire. Pour remédier à cette limitation, nous présentons DiscoX, un nouveau benchmark pour la traduction chinois-anglais au niveau discursif et expert. Il comprend 200 textes sélectionnés professionnellement provenant de 7 domaines, avec une longueur moyenne dépassant 1700 tokens. Pour évaluer les performances sur DiscoX, nous développons également Metric-S, un système sans référence fournissant des évaluations automatiques granulaires couvrant l'exactitude, la fluidité et la pertinence. Metric-S démontre une forte concordance avec les jugements humains, surpassant significativement les métriques existantes. Nos expériences révèlent un écart de performance remarquable : même les LLM les plus avancés restent distancés par les experts humains sur ces tâches. Cette constatation valide la difficulté de DiscoX et souligne les défis persistants pour atteindre une traduction automatisée de qualité professionnelle. Le benchmark et le système d'évaluation proposés offrent un cadre robuste pour une évaluation plus rigoureuse, facilitant les progrès futurs dans la traduction basée sur les LLM.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.