Pearmut: Valutazione Umana della Traduzione Resa Banale
Pearmut: Human Evaluation of Translation Made Trivial
January 6, 2026
Autori: Vilém Zouhar, Tom Kocmi
cs.AI
Abstract
La valutazione umana rappresenta lo standard di riferimento per l'NLP multilingue, ma viene spesso omessa nella pratica e sostituita con metriche automatiche, poiché è notoriamente complessa e lenta da configurare con gli strumenti esistenti, richiedendo un sovraccarico ingegneristico e operativo considerevole. Presentiamo Pearmut, una piattaforma leggera ma ricca di funzionalità che rende la valutazione umana end-to-end semplice da eseguire quanto la valutazione automatica. Pearmut rimuove le comuni barriere d'accesso e fornisce supporto per la valutazione di task multilingue, con un focus particolare sulla traduzione automatica. La piattaforma implementa protocolli di valutazione standard, tra cui DA, ESA o MQM, ma è anche estensibile per consentire la prototipazione di nuovi protocolli. Include funzionalità come contesto a livello documentale, valutazione assoluta e contrastiva, controlli di attenzione, pre-annotazioni ESAAI e strategie di assegnazione sia statiche che basate su active learning. Pearmut rende la valutazione umana affidabile una componente pratica e routinaria dello sviluppo e della diagnostica dei modelli, anziché uno sforzo occasionale.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.