SDQM : Métrique de Qualité des Données Synthétiques pour l'Évaluation des Jeux de Données en Détection d'Objets
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
papers.authors: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
papers.abstract
La performance des modèles d'apprentissage automatique dépend fortement des données d'entraînement. La rareté de jeux de données à grande échelle et bien annotés pose des défis importants dans la création de modèles robustes. Pour y remédier, les données synthétiques générées par des simulations et des modèles génératifs sont apparues comme une solution prometteuse, améliorant la diversité des jeux de données ainsi que la performance, la fiabilité et la résilience des modèles. Cependant, évaluer la qualité de ces données générées nécessite une métrique efficace. Cet article introduit la **Métrique de Qualité des Jeux de Données Synthétiques (SDQM)** pour évaluer la qualité des données dans les tâches de détection d'objets sans nécessiter la convergence de l'entraînement du modèle. Cette métrique permet une génération et une sélection plus efficaces des jeux de données synthétiques, répondant ainsi à un défi majeur dans les tâches de détection d'objets avec des ressources limitées. Dans nos expériences, la SDQM a démontré une forte corrélation avec les scores de **moyenne de Précision Moyenne (mAP)** de YOLOv11, un modèle de détection d'objets de premier plan, alors que les métriques précédentes ne montraient que des corrélations modérées ou faibles. De plus, elle fournit des insights actionnables pour améliorer la qualité des jeux de données, minimisant ainsi le besoin d'entraînements itératifs coûteux. Cette métrique scalable et efficace établit une nouvelle norme pour l'évaluation des données synthétiques. Le code de la SDQM est disponible à l'adresse suivante : https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM