DiscoX: Avaliação da Tradução em Nível Discursivo em Domínios Especializados

Resumo

A avaliação da tradução em nível discursivo em domínios especializados permanece inadequada, apesar de sua centralidade para a disseminação do conhecimento e a comunicação académica translinguística. Embora essas traduções exijam coerência discursiva e rigorosa precisão terminológica, os métodos de avaliação atuais concentram-se predominantemente na precisão e fluidez em nível segmentar. Para superar esta limitação, apresentamos o DiscoX, um novo benchmark para tradução chinês-inglês em nível discursivo e especializado. Ele compreende 200 textos selecionados profissionalmente de 7 domínios, com um comprimento médio superior a 1700 tokens. Para avaliar o desempenho no DiscoX, desenvolvemos também o Metric-S, um sistema sem referência que fornece avaliações automáticas granulares em precisão, fluidez e adequação. O Metric-S demonstra forte consistência com os julgamentos humanos, superando significativamente as métricas existentes. Nossos experimentos revelam uma lacuna de desempenho notável: mesmo os LLMs mais avançados ainda ficam aquém dos especialistas humanos nessas tarefas. Esta constatação valida a dificuldade do DiscoX e ressalta os desafios que permanecem para alcançar a tradução automática de nível profissional. O benchmark e o sistema de avaliação propostos fornecem uma estrutura robusta para uma avaliação mais rigorosa, facilitando avanços futuros na tradução baseada em LLM.

English

The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.

DiscoX: Avaliação da Tradução em Nível Discursivo em Domínios Especializados

DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

Resumo

Support