Pearmut: Evaluación Humana de Traducción Hecha Trivial
Pearmut: Human Evaluation of Translation Made Trivial
January 6, 2026
Autores: Vilém Zouhar, Tom Kocmi
cs.AI
Resumen
La evaluación humana es el estándar de referencia en PLN multilingüe, pero a menudo se omite en la práctica y se sustituye por métricas automáticas, debido a que es notoriamente compleja y lenta de configurar con las herramientas existentes, con una sobrecarga sustancial de ingeniería y operaciones. Presentamos Pearmut, una plataforma ligera pero rica en funciones que hace que la evaluación humana de extremo a extremo sea tan fácil de ejecutar como la evaluación automática. Pearmut elimina las barreras de entrada comunes y ofrece soporte para evaluar tareas multilingües, con un enfoque particular en la traducción automática. La plataforma implementa protocolos de evaluación estándar, como DA, ESA o MQM, pero también es extensible para permitir la creación de prototipos de nuevos protocolos. Incluye contexto a nivel de documento, evaluación absoluta y contrastiva, controles de atención, preanotaciones ESAAI y estrategias de asignación tanto estáticas como basadas en aprendizaje activo. Pearmut permite que la evaluación humana confiable se convierta en un componente práctico y rutinario del desarrollo y diagnóstico de modelos, en lugar de un esfuerzo esporádico.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.