Auf dem Weg zum Evaluations-Engineering: Eine empirische Studie über ML-Evaluations-Harnesses in der Praxis

Zusammenfassung

Evaluationssysteme sind Softwaresysteme, die die Modellbewertung orchestrieren, indem sie den Modellaufruf, das Laden von Daten, die Metrikberechnung und die Ergebnisberichterstattung verwalten. Trotz ihrer entscheidenden Rolle in der Infrastruktur des maschinellen Lernens haben ihre betrieblichen Herausforderungen und technischen Belange bisher nur begrenzte Aufmerksamkeit erhalten. Wir stellen eine empirische Studie von 57 Evaluationssystemen vor, die ein fünfstufiges Systemmodell ableitet und 16.560 Probleme nach Workflow-Phase und Grundursache klassifiziert. Die meisten betrieblichen Herausforderungen der Systeme konzentrieren sich auf die Spezifikationsphase (41,4 % der Probleme), in der die Systeme externe Modelle, Datensätze und Bewertungsinstanzen integrieren. Die drei häufigsten Grundursachen für betriebliche Herausforderungen sind nicht implementierte Funktionen (24,3 %), Dokumentationslücken (20,3 %) und fehlende Eingabevalidierung (17,2 %), die zusammen 61,7 % der klassifizierten Probleme ausmachen und sowohl Fehler in der vorhandenen Funktionalität als auch Fähigkeitslücken umfassen, die beabsichtigte Workflows blockieren. Die Grundursachen variieren auch je nach Workflow-Phase: Umweltinkompatibilität und externe Abhängigkeitsbrüche machen 36,2 % der Bereitstellungsprobleme aus, während algorithmische Fehler (25,9 %) und Validierungslücken (22,5 %) bei Bewertungsproblemen dominieren. Zusammen bilden diese Beiträge eine empirische Grundlage dafür, die Evaluationsentwicklung als eigenständiges Thema der Softwareentwicklung zu betrachten.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.