Rumo à Engenharia de Avaliação: Um Estudo Empírico de Arcabouços de Avaliação de ML no Mundo Real

Resumo

Sistemas de orquestração de avaliação são softwares que coordenam a avaliação de modelos gerenciando a invocação de modelos, o carregamento de dados, o cálculo de métricas e a geração de relatórios. Apesar de seu papel crítico na infraestrutura de aprendizado de máquina, seus desafios operacionais e questões de engenharia têm recebido pouca atenção até o momento. Apresentamos um estudo empírico de 57 sistemas de orquestração de avaliação, derivando um modelo de cinco estágios e classificando 16.560 problemas por estágio do fluxo de trabalho e causa raiz. A maioria dos desafios operacionais dos sistemas concentra-se no estágio de Especificação (41,4% dos problemas), onde os sistemas integram modelos externos, conjuntos de dados e juízes de pontuação. As três causas raiz mais frequentes dos desafios operacionais são funcionalidades não implementadas (24,3%), lacunas na documentação (20,3%) e validação de entrada ausente (17,2%), que juntas respondem por 61,7% dos problemas classificados, abrangendo tanto defeitos na funcionalidade existente quanto lacunas de capacidade que bloqueiam os fluxos de trabalho pretendidos. As causas raiz também variam conforme o estágio do fluxo de trabalho: incompatibilidade de ambiente e quebra de dependências externas respondem por 36,2% dos problemas de provisionamento, enquanto erro algorítmico (25,9%) e lacuna de validação (22,5%) dominam os problemas de avaliação. Juntas, essas contribuições estabelecem uma base empírica para tratar a engenharia de avaliação como uma preocupação distinta da engenharia de software.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.