SDQM: Synthetische Data Quality Metric voor Evaluatie van Objectdetectie-datasets
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
Auteurs: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
Samenvatting
De prestaties van machine learning-modellen zijn sterk afhankelijk van trainingsdata.
Het gebrek aan grootschalige, goed geannoteerde datasets vormt aanzienlijke uitdagingen
bij het creëren van robuuste modellen. Om dit aan te pakken, is synthetische data die
wordt gegenereerd via simulaties en generatieve modellen naar voren gekomen als een
veelbelovende oplossing, waardoor de diversiteit van datasets wordt vergroot en de
prestaties, betrouwbaarheid en veerkracht van modellen worden verbeterd. Het evalueren
van de kwaliteit van deze gegenereerde data vereist echter een effectieve metriek.
Dit artikel introduceert de Synthetic Dataset Quality Metric (SDQM) om de kwaliteit
van data te beoordelen voor objectdetectietaken zonder dat modeltraining hoeft te
convergeren. Deze metriek maakt een efficiëntere generatie en selectie van synthetische
datasets mogelijk, wat een belangrijke uitdaging aanpakt bij objectdetectietaken met
beperkte middelen. In onze experimenten toonde SDQM een sterke correlatie met de
mean Average Precision (mAP)-scores van YOLOv11, een toonaangevend objectdetectiemodel,
terwijl eerdere metrieken slechts matige of zwakke correlaties vertoonden. Daarnaast
biedt het bruikbare inzichten voor het verbeteren van de datasetkwaliteit, waardoor de
behoefte aan kostbare iteratieve training wordt geminimaliseerd. Deze schaalbare en
efficiënte metriek zet een nieuwe standaard voor het evalueren van synthetische data.
De code voor SDQM is beschikbaar op https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM