ChatPaper.aiChatPaper

DiscoX: Benchmarken van Vertaling op Discourse-Niveau in Expertendomeinen

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

November 14, 2025
Auteurs: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI

Samenvatting

De evaluatie van vertalingen op discoursniveau in expert-domeinen blijft ontoereikend, ondanks het centrale belang ervan voor kennisdisseminatie en grensoverschrijdende wetenschappelijke communicatie. Hoewel deze vertalingen coherentie op discoursniveau en strikte terminologische precisie vereisen, richten huidige evaluatiemethoden zich voornamelijk op nauwkeurigheid en vlotheid op segmentniveau. Om deze beperking aan te pakken, introduceren wij DiscoX, een nieuwe benchmark voor Chinees-Engelse vertaling op discours- en expertniveau. Deze omvat 200 professioneel samengestelde teksten uit 7 domeinen, met een gemiddelde lengte van meer dan 1700 tokens. Om de prestaties op DiscoX te evalueren, ontwikkelden wij ook Metric-S, een referentievrij systeem dat gedetailleerde automatische beoordelingen biedt voor nauwkeurigheid, vlotheid en toepasselijkheid. Metric-S vertoont een sterke consistentie met menselijke beoordelingen en presteert aanzienlijk beter dan bestaande metrieken. Onze experimenten tonen een opmerkelijke prestatiekloof: zelfs de meest geavanceerde taalmodel(len) blijven achter bij menselijke experts bij deze taken. Deze bevinding bevestigt de moeilijkheidsgraad van DiscoX en benadrukt de uitdagingen die blijven bestaan bij het bereiken van professionele machinevertaling. De voorgestelde benchmark en evaluatiesysteem bieden een robuust kader voor strengere evaluatie, wat toekomstige vooruitgang in op taalmodellen gebaseerde vertaling zal vergemakkelijken.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.
PDF42December 1, 2025