SDQM: Метрика качества синтетических данных для оценки наборов данных в задачах детекции объектов
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
Авторы: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
Аннотация
Эффективность моделей машинного обучения в значительной степени зависит от обучающих данных. Недостаток крупномасштабных, качественно аннотированных наборов данных создает серьезные трудности при создании устойчивых моделей. Для решения этой проблемы синтетические данные, генерируемые с помощью симуляций и генеративных моделей, стали перспективным решением, повышающим разнообразие наборов данных и улучшающим производительность, надежность и устойчивость моделей. Однако для оценки качества таких сгенерированных данных требуется эффективная метрика. В данной статье представлена метрика качества синтетических данных (Synthetic Dataset Quality Metric, SDQM), предназначенная для оценки качества данных в задачах обнаружения объектов без необходимости сходимости обучения модели. Эта метрика позволяет более эффективно генерировать и выбирать синтетические наборы данных, решая ключевую проблему в задачах обнаружения объектов с ограниченными ресурсами. В наших экспериментах SDQM продемонстрировала сильную корреляцию с показателями средней точности (mean Average Precision, mAP) модели YOLOv11, одной из ведущих моделей для обнаружения объектов, тогда как предыдущие метрики показывали лишь умеренную или слабую корреляцию. Кроме того, она предоставляет практические рекомендации для улучшения качества наборов данных, минимизируя необходимость дорогостоящего итеративного обучения. Эта масштабируемая и эффективная метрика устанавливает новый стандарт для оценки синтетических данных. Код SDQM доступен по адресу https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM