ChatPaper.aiChatPaper

Пирмут: простое оценивание качества перевода человеком

Pearmut: Human Evaluation of Translation Made Trivial

January 6, 2026
Авторы: Vilém Zouhar, Tom Kocmi
cs.AI

Аннотация

Человеческая оценка является золотым стандартом в многозадачном NLP, однако на практике её часто пропускают и заменяют автоматическими метриками, поскольку она печально известна своей сложностью и медленной настройкой с использованием существующих инструментов, сопряженной со значительными инженерными и операционными затратами. Мы представляем Pearmut — легковесную, но многофункциональную платформу, которая делает сквозную человеческую оценку такой же простой в запуске, как и автоматическую. Pearmut устраняет распространенные барьеры для входа и предоставляет поддержку для оценки многозадачных сценариев, с особым акцентом на машинный перевод. Платформа реализует стандартные протоколы оценки, включая DA, ESA или MQM, но также является расширяемой для прототипирования новых протоколов. Она обладает такими функциями, как контекст на уровне документа, абсолютная и сравнительная оценка, проверки внимания, преданнотации ESAAI, а также стратегии назначения заданий, основанные как на статическом подходе, так и на активном обучении. Pearmut позволяет сделать надежную человеческую оценку практичным, рутинным компонентом разработки и диагностики моделей, а не эпизодическим усилием.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.
PDF21January 9, 2026