ChatPaper.aiChatPaper

SDQM: Synthetische Data Quality Metric voor Evaluatie van Objectdetectie-datasets

SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation

October 8, 2025
Auteurs: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI

Samenvatting

De prestaties van machine learning-modellen zijn sterk afhankelijk van trainingsdata. Het gebrek aan grootschalige, goed geannoteerde datasets vormt aanzienlijke uitdagingen bij het creëren van robuuste modellen. Om dit aan te pakken, is synthetische data die wordt gegenereerd via simulaties en generatieve modellen naar voren gekomen als een veelbelovende oplossing, waardoor de diversiteit van datasets wordt vergroot en de prestaties, betrouwbaarheid en veerkracht van modellen worden verbeterd. Het evalueren van de kwaliteit van deze gegenereerde data vereist echter een effectieve metriek. Dit artikel introduceert de Synthetic Dataset Quality Metric (SDQM) om de kwaliteit van data te beoordelen voor objectdetectietaken zonder dat modeltraining hoeft te convergeren. Deze metriek maakt een efficiëntere generatie en selectie van synthetische datasets mogelijk, wat een belangrijke uitdaging aanpakt bij objectdetectietaken met beperkte middelen. In onze experimenten toonde SDQM een sterke correlatie met de mean Average Precision (mAP)-scores van YOLOv11, een toonaangevend objectdetectiemodel, terwijl eerdere metrieken slechts matige of zwakke correlaties vertoonden. Daarnaast biedt het bruikbare inzichten voor het verbeteren van de datasetkwaliteit, waardoor de behoefte aan kostbare iteratieve training wordt geminimaliseerd. Deze schaalbare en efficiënte metriek zet een nieuwe standaard voor het evalueren van synthetische data. De code voor SDQM is beschikbaar op https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data. The scarcity of large-scale, well-annotated datasets poses significant challenges in creating robust models. To address this, synthetic data generated through simulations and generative models has emerged as a promising solution, enhancing dataset diversity and improving the performance, reliability, and resilience of models. However, evaluating the quality of this generated data requires an effective metric. This paper introduces the Synthetic Dataset Quality Metric (SDQM) to assess data quality for object detection tasks without requiring model training to converge. This metric enables more efficient generation and selection of synthetic datasets, addressing a key challenge in resource-constrained object detection tasks. In our experiments, SDQM demonstrated a strong correlation with the mean Average Precision (mAP) scores of YOLOv11, a leading object detection model, while previous metrics only exhibited moderate or weak correlations. Additionally, it provides actionable insights for improving dataset quality, minimizing the need for costly iterative training. This scalable and efficient metric sets a new standard for evaluating synthetic data. The code for SDQM is available at https://github.com/ayushzenith/SDQM
PDF12October 9, 2025