Pearmut: 번역의 인간 평가를 간단하게
Pearmut: Human Evaluation of Translation Made Trivial
January 6, 2026
저자: Vilém Zouhar, Tom Kocmi
cs.AI
초록
인간 평가는 다국어 NLP의 표준 방법론으로 여겨지지만, 기존 도구를 활용한 설정이 공학적·운영적 부담이 크고 매우 복잡하며 느리기 때문에 실제 현장에서는 자동 평가 지표로 대체되는 경우가 많습니다. 우리는 경량이면서도 기능이 풍부한 플랫폼인 Pearmut를 소개합니다. Pearmut는 종단간 인간 평가를 자동 평가만큼 쉽게 실행할 수 있도록 합니다. Pearmut는 일반적인 진입 장벽을 제거하고 특히 기계 번역에 중점을 둔 다국어 작업 평가를 지원합니다. 본 플랫폼은 DA, ESA, MQM 등 표준 평가 프로토콜을 구현하면서도 새로운 프로토콜 시범 적용을 위한 확장성을 갖추고 있습니다. 문서 수준의 맥락 지원, 절대 및 대조 평가, 주의력 검사, ESAAI 사전 주석 처리, 정적 및 능동 학습 기반 할당 전략 등의 특징을 포함합니다. Pearmut는 신뢰할 수 있는 인간 평가가 가끔 진행되는 작업이 아닌 모델 개발 및 진단의 실용적이고 일상적인 구성 요소가 될 수 있도록 합니다.
English
Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.