ChatPaper.aiChatPaper

SDQM : Métrique de Qualité des Données Synthétiques pour l'Évaluation des Jeux de Données en Détection d'Objets

SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation

October 8, 2025
papers.authors: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI

papers.abstract

La performance des modèles d'apprentissage automatique dépend fortement des données d'entraînement. La rareté de jeux de données à grande échelle et bien annotés pose des défis importants dans la création de modèles robustes. Pour y remédier, les données synthétiques générées par des simulations et des modèles génératifs sont apparues comme une solution prometteuse, améliorant la diversité des jeux de données ainsi que la performance, la fiabilité et la résilience des modèles. Cependant, évaluer la qualité de ces données générées nécessite une métrique efficace. Cet article introduit la **Métrique de Qualité des Jeux de Données Synthétiques (SDQM)** pour évaluer la qualité des données dans les tâches de détection d'objets sans nécessiter la convergence de l'entraînement du modèle. Cette métrique permet une génération et une sélection plus efficaces des jeux de données synthétiques, répondant ainsi à un défi majeur dans les tâches de détection d'objets avec des ressources limitées. Dans nos expériences, la SDQM a démontré une forte corrélation avec les scores de **moyenne de Précision Moyenne (mAP)** de YOLOv11, un modèle de détection d'objets de premier plan, alors que les métriques précédentes ne montraient que des corrélations modérées ou faibles. De plus, elle fournit des insights actionnables pour améliorer la qualité des jeux de données, minimisant ainsi le besoin d'entraînements itératifs coûteux. Cette métrique scalable et efficace établit une nouvelle norme pour l'évaluation des données synthétiques. Le code de la SDQM est disponible à l'adresse suivante : https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data. The scarcity of large-scale, well-annotated datasets poses significant challenges in creating robust models. To address this, synthetic data generated through simulations and generative models has emerged as a promising solution, enhancing dataset diversity and improving the performance, reliability, and resilience of models. However, evaluating the quality of this generated data requires an effective metric. This paper introduces the Synthetic Dataset Quality Metric (SDQM) to assess data quality for object detection tasks without requiring model training to converge. This metric enables more efficient generation and selection of synthetic datasets, addressing a key challenge in resource-constrained object detection tasks. In our experiments, SDQM demonstrated a strong correlation with the mean Average Precision (mAP) scores of YOLOv11, a leading object detection model, while previous metrics only exhibited moderate or weak correlations. Additionally, it provides actionable insights for improving dataset quality, minimizing the need for costly iterative training. This scalable and efficient metric sets a new standard for evaluating synthetic data. The code for SDQM is available at https://github.com/ayushzenith/SDQM
PDF12October 9, 2025