ChatPaper.aiChatPaper

Pearmut : Évaluation humaine de la traduction simplifiée à l'extrême

Pearmut: Human Evaluation of Translation Made Trivial

January 6, 2026
papers.authors: Vilém Zouhar, Tom Kocmi
cs.AI

papers.abstract

L’évaluation humaine est la référence absolue en TAL multilingue, mais elle est souvent omise en pratique et remplacée par des métriques automatiques, car elle est notoirement complexe et longue à mettre en place avec les outils existants, impliquant une charge technique et opérationnelle substantielle. Nous présentons Pearmut, une plateforme légère mais riche en fonctionnalités, qui rend l’évaluation humaine de bout en bout aussi simple à exécuter que l’évaluation automatique. Pearmut supprime les obstacles habituels et offre un support pour l’évaluation de tâches multilingues, en se concentrant particulièrement sur la traduction automatique. La plateforme implémente des protocoles d’évaluation standard, tels que DA, ESA ou MQM, mais est également extensible pour permettre le prototypage de nouveaux protocoles. Elle intègre notamment le contexte au niveau documentaire, l’évaluation absolue et contrastive, des vérifications d’attention, des pré-annotations ESAAI et des stratégies d’affectation statiques ou basées sur l’apprentissage actif. Pearmut permet à l’évaluation humaine fiable de devenir une composante pratique et routinière du développement et du diagnostic des modèles, plutôt qu’un effort occasionnel.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.
PDF21January 9, 2026