DiscoX: Benchmarking von Übersetzungsaufgaben auf Diskursebene in Expertenbereichen
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
November 14, 2025
papers.authors: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI
papers.abstract
Die Bewertung von Übersetzungen auf Diskursebene in Expertenbereichen bleibt unzureichend, obwohl sie für die Wissensverbreitung und die mehrsprachige wissenschaftliche Kommunikation von zentraler Bedeutung ist. Während diese Übersetzungen diskursive Kohärenz und strikte terminologische Präzision erfordern, konzentrieren sich aktuelle Bewertungsmethoden überwiegend auf die Genauigkeit und Flüssigkeit auf Segmentebene. Um diese Einschränkung zu adressieren, stellen wir DiscoX vor, einen neuen Benchmark für chinesisch-englische Übersetzungen auf Diskurs- und Expertenniveau. Er umfasst 200 professionell kuratierte Texte aus sieben Domänen mit einer durchschnittlichen Länge von über 1700 Tokens. Zur Leistungsbewertung auf DiscoX entwickeln wir zudem Metric-S, ein referenzfreies System, das feingranulare automatische Bewertungen in den Kategorien Genauigkeit, Flüssigkeit und Angemessenheit liefert. Metric-S zeigt eine starke Übereinstimmung mit menschlichen Beurteilungen und übertrifft bestehende Metriken signifikant. Unsere Experimente offenbaren eine bemerkenswerte Leistungslücke: Selbst die fortschrittlichsten LLMs liegen bei diesen Aufgaben deutlich hinter menschlichen Experten zurück. Dieser Befund validiert die Schwierigkeit von DiscoX und unterstreicht die verbleibenden Herausforderungen bei der Realisierung professioneller maschineller Übersetzungen. Der vorgeschlagene Benchmark und das Bewertungssystem bieten einen robusten Rahmen für rigorosere Evaluationen und erleichtern zukünftige Fortschritte in der LLM-basierten Übersetzung.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.