Hacia la Ingeniería de Evaluación: Un Estudio Empírico de las Herramientas de Evaluación de ML en el Entorno Real

Resumen

Los sistemas de evaluación (harnesses) son sistemas de software que orquestan la evaluación de modelos gestionando la invocación de modelos, la carga de datos, el cálculo de métricas y la presentación de resultados. A pesar de su papel crítico en la infraestructura de aprendizaje automático, sus desafíos operativos y preocupaciones de ingeniería han recibido una atención limitada hasta ahora. Presentamos un estudio empírico de 57 sistemas de evaluación, derivando un modelo de harness de cinco etapas y clasificando 16,560 incidencias por etapa del flujo de trabajo y causa raíz. La mayoría de los desafíos operativos de los sistemas se concentran en la etapa de Especificación (41.4% de las incidencias), donde los sistemas integran modelos externos, conjuntos de datos y jueces de puntuación. Las tres causas raíz más frecuentes de los desafíos operativos son funciones no implementadas (24.3%), lagunas en la documentación (20.3%) y falta de validación de entrada (17.2%), que en conjunto representan el 61.7% de las incidencias clasificadas, abarcando tanto defectos en la funcionalidad existente como brechas de capacidad que bloquean los flujos de trabajo previstos. Las causas raíz también varían según la etapa del flujo de trabajo: la incompatibilidad del entorno y la ruptura de dependencias externas representan el 36.2% de los problemas de aprovisionamiento, mientras que el error algorítmico (25.9%) y la brecha de validación (22.5%) dominan los problemas de evaluación. En conjunto, estas contribuciones establecen una base empírica para tratar la ingeniería de evaluación como una preocupación distinta dentro de la ingeniería de software.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.