SDQM: Synthetische Datenqualitätsmetrik zur Bewertung von Objekterkennungsdatensätzen
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
papers.authors: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
papers.abstract
Die Leistung von Machine-Learning-Modellen hängt stark von den Trainingsdaten ab. Die Knappheit von groß angelegten, gut annotierten Datensätzen stellt erhebliche Herausforderungen bei der Erstellung robuster Modelle dar. Um dies zu bewältigen, hat sich synthetisch generierte Daten, die durch Simulationen und generative Modelle erzeugt werden, als vielversprechende Lösung herausgestellt. Sie erhöhen die Vielfalt der Datensätze und verbessern die Leistung, Zuverlässigkeit und Widerstandsfähigkeit der Modelle. Allerdings erfordert die Bewertung der Qualität dieser generierten Daten eine effektive Metrik. Dieses Papier führt die Synthetic Dataset Quality Metric (SDQM) ein, um die Datenqualität für Objekterkennungsaufgaben zu bewerten, ohne dass das Modelltraining konvergieren muss. Diese Metrik ermöglicht eine effizientere Generierung und Auswahl synthetischer Datensätze und adressiert damit eine zentrale Herausforderung bei ressourcenbeschränkten Objekterkennungsaufgaben. In unseren Experimenten zeigte SDQM eine starke Korrelation mit den Mean Average Precision (mAP)-Werten von YOLOv11, einem führenden Objekterkennungsmodell, während frühere Metriken nur moderate oder schwache Korrelationen aufwiesen. Darüber hinaus liefert sie umsetzbare Erkenntnisse zur Verbesserung der Datenqualität und minimiert den Bedarf an kostspieligem iterativem Training. Diese skalierbare und effiziente Metrik setzt einen neuen Standard für die Bewertung synthetischer Daten. Der Code für SDQM ist verfügbar unter https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM