DiscoX: Avaliação da Tradução em Nível Discursivo em Domínios Especializados
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
November 14, 2025
Autores: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI
Resumo
A avaliação da tradução em nível discursivo em domínios especializados permanece inadequada, apesar de sua centralidade para a disseminação do conhecimento e a comunicação académica translinguística. Embora essas traduções exijam coerência discursiva e rigorosa precisão terminológica, os métodos de avaliação atuais concentram-se predominantemente na precisão e fluidez em nível segmentar. Para superar esta limitação, apresentamos o DiscoX, um novo benchmark para tradução chinês-inglês em nível discursivo e especializado. Ele compreende 200 textos selecionados profissionalmente de 7 domínios, com um comprimento médio superior a 1700 tokens. Para avaliar o desempenho no DiscoX, desenvolvemos também o Metric-S, um sistema sem referência que fornece avaliações automáticas granulares em precisão, fluidez e adequação. O Metric-S demonstra forte consistência com os julgamentos humanos, superando significativamente as métricas existentes. Nossos experimentos revelam uma lacuna de desempenho notável: mesmo os LLMs mais avançados ainda ficam aquém dos especialistas humanos nessas tarefas. Esta constatação valida a dificuldade do DiscoX e ressalta os desafios que permanecem para alcançar a tradução automática de nível profissional. O benchmark e o sistema de avaliação propostos fornecem uma estrutura robusta para uma avaliação mais rigorosa, facilitando avanços futuros na tradução baseada em LLM.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.