DiscoX: Evaluación de la Tarea de Traducción a Nivel Discursivo en Dominios Expertos
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
November 14, 2025
Autores: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI
Resumen
La evaluación de la traducción a nivel discursivo en dominios especializados sigue siendo insuficiente, a pesar de su centralidad para la diseminación del conocimiento y la comunicación académica multilingüe. Si bien estas traducciones exigen coherencia discursiva y una precisión terminológica estricta, los métodos de evaluación actuales se centran predominantemente en la exactitud y fluidez a nivel segmentario. Para abordar esta limitación, presentamos DiscoX, un nuevo punto de referencia para la traducción chino-inglés a nivel discursivo y de experto. Este comprende 200 textos seleccionados profesionalmente de 7 dominios, con una longitud promedio que supera los 1700 tokens. Para evaluar el rendimiento en DiscoX, también desarrollamos Metric-S, un sistema sin referencias que proporciona evaluaciones automáticas detalladas en cuanto a exactitud, fluidez y adecuación. Metric-S demuestra una fuerte consistencia con los juicios humanos, superando significativamente a las métricas existentes. Nuestros experimentos revelan una brecha de rendimiento notable: incluso los modelos de lenguaje más avanzados aún están por detrás de los expertos humanos en estas tareas. Este hallazgo valida la dificultad de DiscoX y subraya los desafíos que persisten para lograr una traducción automática de grado profesional. El punto de referencia y el sistema de evaluación propuestos proporcionan un marco robusto para una evaluación más rigurosa, facilitando los avances futuros en la traducción basada en modelos de lenguaje.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.