ChatPaper.aiChatPaper

DiscoX: 전문 분야 담화 수준 번역 과제 성능 평가

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

November 14, 2025
저자: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI

초록

전문 분야의 담화 수준 번역 평가는 지식 확산과 학제적 학술 소통에 핵심적임에도 불구하고 여전히 미흡한 실정이다. 이러한 번역은 담화 수준의 응집성과 엄격한 용어 정확성을 요구함에도 불구하고, 현재의 평가 방법은 주로 단문 수준의 정확성과 유창성에 집중하고 있다. 이러한 한계를 해결하기 위해 우리는 담화 수준 및 전문 수준의 중영 번역을 위한 새로운 벤치마크인 DiscoX를 소개한다. 이는 7개 분야에서 전문적으로 선별된 200개의 텍스트로 구성되며 평균 길이가 1700토큰을 초과한다. DiscoX의 성능을 평가하기 위해 우리는 정확성, 유창성, 적절성에 걸친 세분화된 자동 평가를 제공하는 참조 없는 시스템인 Metric-S도 개발했다. Metric-S는 인간 평가와 강력한 일관성을 보여주며 기존 평가 지표를 크게 능가한다. 우리의 실험은 주목할 만한 성능 격차를 드러낸다: 가장 진보된 대규모 언어 모델조차도 이러한 과제에서 인간 전문가에 미치지 못하는 것으로 나타났다. 이 발견은 DiscoX의 난이도를 입증하고 전문가 수준 기계 번역 달성에 남아 있는 과제를 강조한다. 제안된 벤치마크와 평가 시스템은 더 엄격한 평가를 위한 견고한 프레임워크를 제공하며, 대규모 언어 모델 기반 번역의 미래 발전을 촉진할 것이다.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.
PDF42December 1, 2025