Pearmut: 翻訳の人的評価を簡素化
Pearmut: Human Evaluation of Translation Made Trivial
January 6, 2026
著者: Vilém Zouhar, Tom Kocmi
cs.AI
要旨
多言語NLPにおけるヒューマン評価はゴールドスタンダードであるが、既存のツールでは設定が非常に複雑で時間がかかり、多大なエンジニアリングと運用上のオーバーヘッドが生じるため、実践ではしばしば省略され、自動評価指標で代替されることが多い。本論文では、エンドツーエンドのヒューマン評価を自動評価と同程度に容易に実行可能にする、軽量でありながら機能豊富なプラットフォーム「Pearmut」を提案する。Pearmutは一般的な参入障壁を除去し、特に機械翻訳に焦点を当てつつ、多言語タスクの評価を支援する。本プラットフォームはDA、ESA、MQMといった標準的な評価プロトコルを実装する一方、新しいプロトコルの試作を可能にする拡張性も備える。特徴として、文書レベルのコンテキスト、絶対評価と比較評価、注意力チェック、ESAAIによる事前注釈、静的割り当てと能動学習に基づく割り当て戦略を提供する。Pearmutにより、信頼性の高いヒューマン評価は偶発的な取り組みではなく、モデル開発と診断の実用的で日常的な構成要素となる。
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.