ChatPaper.aiChatPaper

DiscoX: Оценка качества перевода на уровне дискурса в экспертных областях

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

November 14, 2025
Авторы: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang
cs.AI

Аннотация

Оценка перевода на уровне дискурса в экспертных областях остаётся недостаточной, несмотря на её ключевую роль в распространении знаний и межъязыковой научной коммуникации. Хотя такие переводы требуют связности на уровне дискурса и строгой терминологической точности, современные методы оценки в основном сосредоточены на точности и беглости на уровне сегментов. Для устранения этого ограничения мы представляем DiscoX — новый эталонный набор для перевода между китайским и английским языками на уровне дискурса и экспертного содержания. Он включает 200 профессионально отобранных текстов из 7 областей со средней длиной свыше 1700 токенов. Для оценки производительности на DiscoX мы также разработали Metric-S — беспереферентную систему, обеспечивающую детализированную автоматическую оценку по параметрам точности, беглости и уместности. Metric-S демонстрирует высокую согласованность с экспертными оценками, значительно превосходя существующие метрики. Наши эксперименты выявляют значительный разрыв в качестве: даже самые передовые большие языковые модели существенно уступают экспертам-переводчикам в этих задачах. Этот результат подтверждает сложность DiscoX и подчеркивает сохраняющиеся challenges в достижении профессионального уровня машинного перевода. Предлагаемый эталонный набор и система оценки создают надежную основу для более строгой оценки, способствуя дальнейшему прогрессу в области перевода на основе больших языковых моделей.
English
The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.
PDF42December 1, 2025