Vers une ingénierie de l'évaluation : une étude empirique des harnais d'évaluation de l'apprentissage automatique dans la nature

Résumé

Les harnais d'évaluation sont des systèmes logiciels qui orchestrent l'évaluation des modèles en gérant l'invocation des modèles, le chargement des données, le calcul des métriques et le rapport des résultats. Malgré leur rôle crucial dans l'infrastructure d'apprentissage automatique, leurs défis opérationnels et leurs préoccupations techniques ont jusqu'à présent reçu une attention limitée. Nous présentons une étude empirique de 57 harnais d'évaluation, dérivant un modèle de harnais en cinq étapes et classifiant 16 560 problèmes par étape du flux de travail et cause racine. La plupart des défis opérationnels des harnais se concentrent dans l'étape de Spécification (41,4 % des problèmes), où les harnais intègrent des modèles externes, des ensembles de données et des juges de notation. Les trois causes racines les plus fréquentes des défis opérationnels sont les fonctionnalités non implémentées (24,3 %), les lacunes documentaires (20,3 %) et l'absence de validation des entrées (17,2 %), qui représentent ensemble 61,7 % des problèmes classifiés, couvrant à la fois des défauts dans les fonctionnalités existantes et des lacunes de capacité qui bloquent les flux de travail prévus. Les causes racines varient également selon l'étape du flux de travail : l'incompatibilité d'environnement et la rupture des dépendances externes représentent 36,2 % des problèmes d'approvisionnement, tandis que l'erreur algorithmique (25,9 %) et le manque de validation (22,5 %) dominent les problèmes d'évaluation. Ensemble, ces contributions établissent une base empirique pour considérer l'ingénierie d'évaluation comme une préoccupation distincte du génie logiciel.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.