DiscoX: Benchmarking della Traduzione a Livello Discorsivo in Domini Specialistici
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
November 14, 2025
Autori: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI
Abstract
La valutazione della traduzione a livello discorsivo in ambiti specialistici rimane inadeguata, nonostante la sua centralità per la diffusione della conoscenza e la comunicazione accademica translinguistica. Sebbene queste traduzioni richiedano coerenza discorsiva e rigida precisione terminologica, i metodi di valutazione attuali si concentrano prevalentemente sull'accuratezza e fluidità a livello segmentale. Per affrontare questa limitazione, presentiamo DiscoX, un nuovo benchmark per la traduzione cinese-inglese a livello discorsivo e specialistico. Esso comprende 200 testi curati professionalmente da 7 domini, con una lunghezza media superiore a 1700 token. Per valutare le prestazioni su DiscoX, abbiamo sviluppato Metric-S, un sistema senza riferimento che fornisce valutazioni automatiche granulari su accuratezza, fluidità e appropriatezza. Metric-S dimostra una forte coerenza con i giudizi umani, superando significativamente le metriche esistenti. I nostri esperimenti rivelano un divario prestazionale notevole: anche i modelli linguistici più avanzati restano ancora inferiori agli esperti umani in questi compiti. Questa scoperta convalida la difficoltà di DiscoX e sottolinea le sfide che permangono nel raggiungere una traduzione automatica di livello professionale. Il benchmark e il sistema di valutazione proposti forniscono un quadro solido per una valutazione più rigorosa, facilitando i progressi futuri nella traduzione basata su LLM.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.