Pearmut: Avaliação Humana de Tradução Simplificada

Resumo

A avaliação humana é o padrão-ouro para PLN multilingue, mas é frequentemente ignorada na prática e substituída por métricas automáticas, porque é notoriamente complexa e lenta de configurar com as ferramentas existentes, implicando uma sobrecarga substancial de engenharia e operação. Apresentamos o Pearmut, uma plataforma leve mas rica em funcionalidades que torna a avaliação humana de ponta a ponta tão fácil de executar quanto a avaliação automática. O Pearmut remove as barreiras comuns de entrada e fornece suporte para avaliar tarefas multilingues, com um foco particular na tradução automática. A plataforma implementa protocolos de avaliação padrão, incluindo DA, ESA ou MQM, mas também é extensível para permitir a prototipagem de novos protocolos. Inclui contexto ao nível do documento, avaliação absoluta e contrastiva, verificações de atenção, pré-anotações ESAAI e estratégias de atribuição baseadas em aprendizagem estática e ativa. O Pearmut permite que a avaliação humana fiável se torne um componente prático e rotineiro do desenvolvimento e diagnóstico de modelos, em vez de um esforço ocasional.

English

Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.