На пути к инженерии оценивания: эмпирическое исследование инструментов оценки машинного обучения в реальных условиях

Аннотация

Оценочные обвязки (evaluation harnesses) представляют собой программные системы, которые координируют процесс оценки моделей, управляя их вызовом, загрузкой данных, вычислением метрик и формированием отчётов о результатах. Несмотря на их критическую роль в инфраструктуре машинного обучения, эксплуатационные трудности и инженерные аспекты, связанные с ними, до сих пор получали ограниченное внимание. Мы представляем эмпирическое исследование 57 оценочных обвязок, в ходе которого была разработана пятиэтапная модель обвязки и проведена классификация 16 560 проблем по этапам рабочего процесса и первопричинам. Большинство эксплуатационных трудностей сосредоточено на этапе спецификации (41,4% проблем), где обвязки интегрируют внешние модели, наборы данных и оценочные судьи. Три наиболее частые первопричины эксплуатационных трудностей — нереализованные функции (24,3%), пробелы в документации (20,3%) и отсутствие валидации входных данных (17,2%) — в совокупности составляют 61,7% классифицированных проблем, охватывая как дефекты существующей функциональности, так и пробелы в возможностях, блокирующие запланированные рабочие процессы. Первопричины также различаются в зависимости от этапа рабочего процесса: несовместимость окружения и нарушение внешних зависимостей составляют 36,2% проблем обеспечения, тогда как на этапе оценки доминируют алгоритмическая ошибка (25,9%) и пробел в валидации (22,5%). В совокупности эти результаты создают эмпирическую основу для рассмотрения инженерии оценки как отдельного направления программной инженерии.

English

Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.