Naar evaluatie-engineering: Een empirische studie van ML-evaluatie-harnassen in het wild

Samenvatting

Evaluatieharnassen zijn softwaresystemen die modelevaluatie orchestreren door het beheer van modelaanroeping, gegevens laden, metriekberekening en resultaatrapportage. Ondanks hun kritieke rol in de machine learning-infrastructuur hebben hun operationele uitdagingen en technische aandachtspunten tot dusver beperkte aandacht gekregen. We presenteren een empirische studie van 57 evaluatieharnassen, waarbij we een vijffasen harnasmodel afleiden en 16.560 problemen classificeren per workflowfase en grondoorzaak. De meeste operationele uitdagingen van harnassen concentreren zich in de specificatiefase (41,4% van de problemen), waar harnassen externe modellen, datasets en scoringbeoordelaars integreren. De drie meest voorkomende grondoorzaken van operationele uitdagingen zijn niet-geïmplementeerde functies (24,3%), documentatiehiaten (20,3%) en ontbrekende invoervalidatie (17,2%), die samen 61,7% van de geclassificeerde problemen uitmaken, zowel defecten in bestaande functionaliteit als capaciteitshiaten die beoogde workflows blokkeren. Grondoorzaken variëren ook per workflowfase: omgevingsincompatibiliteit en breuk van externe afhankelijkheden zijn verantwoordelijk voor 36,2% van de provisioneringsproblemen, terwijl algoritmische fout (25,9%) en validatiekloof (22,5%) de beoordelingsproblemen domineren. Samen leggen deze bijdragen een empirische basis voor het behandelen van evaluatie-engineering als een aparte software-engineeringdiscipline.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.