ChatPaper.aiChatPaper

Pearmut: Menselijke evaluatie van vertalingen moeiteloos gemaakt

Pearmut: Human Evaluation of Translation Made Trivial

January 6, 2026
Auteurs: Vilém Zouhar, Tom Kocmi
cs.AI

Samenvatting

Menselijke evaluatie is de gouden standaard voor meertalige NLP, maar wordt in de praktijk vaak overgeslagen en vervangen door automatische metrieken, omdat het notoir complex en traag is om in te richten met bestaande tools die aanzienlijke technische en operationele overhead met zich meebrengen. Wij introduceren Pearmut, een lichtgewicht maar functierijk platform dat end-to-end menselijke evaluatie even gemakkelijk uitvoerbaar maakt als automatische evaluatie. Pearmut verwijdert veelvoorkomende drempels en biedt ondersteuning voor het evalueren van meertalige taken, met een bijzondere focus op machinaal vertalen. Het platform implementeert standaard evaluatieprotocollen, zoals DA, ESA of MQM, maar is ook uitbreidbaar om nieuwe protocollen te kunnen prototyperen. Het beschikt over documentniveau-context, absolute en contrastieve evaluatie, aandachtscontroles, ESAAI-vooraantekeningen en zowel statische als op actief leren gebaseerde toewijzingsstrategieën. Pearmut maakt betrouwbare menselijke evaluatie tot een praktische, routinecomponent van modelontwikkeling en -diagnose in plaats van een incidentele inspanning.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.
PDF21January 9, 2026