ChatPaper.aiChatPaper

SDQM: Synthetische Datenqualitätsmetrik zur Bewertung von Objekterkennungsdatensätzen

SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation

October 8, 2025
papers.authors: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI

papers.abstract

Die Leistung von Machine-Learning-Modellen hängt stark von den Trainingsdaten ab. Die Knappheit von groß angelegten, gut annotierten Datensätzen stellt erhebliche Herausforderungen bei der Erstellung robuster Modelle dar. Um dies zu bewältigen, hat sich synthetisch generierte Daten, die durch Simulationen und generative Modelle erzeugt werden, als vielversprechende Lösung herausgestellt. Sie erhöhen die Vielfalt der Datensätze und verbessern die Leistung, Zuverlässigkeit und Widerstandsfähigkeit der Modelle. Allerdings erfordert die Bewertung der Qualität dieser generierten Daten eine effektive Metrik. Dieses Papier führt die Synthetic Dataset Quality Metric (SDQM) ein, um die Datenqualität für Objekterkennungsaufgaben zu bewerten, ohne dass das Modelltraining konvergieren muss. Diese Metrik ermöglicht eine effizientere Generierung und Auswahl synthetischer Datensätze und adressiert damit eine zentrale Herausforderung bei ressourcenbeschränkten Objekterkennungsaufgaben. In unseren Experimenten zeigte SDQM eine starke Korrelation mit den Mean Average Precision (mAP)-Werten von YOLOv11, einem führenden Objekterkennungsmodell, während frühere Metriken nur moderate oder schwache Korrelationen aufwiesen. Darüber hinaus liefert sie umsetzbare Erkenntnisse zur Verbesserung der Datenqualität und minimiert den Bedarf an kostspieligem iterativem Training. Diese skalierbare und effiziente Metrik setzt einen neuen Standard für die Bewertung synthetischer Daten. Der Code für SDQM ist verfügbar unter https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data. The scarcity of large-scale, well-annotated datasets poses significant challenges in creating robust models. To address this, synthetic data generated through simulations and generative models has emerged as a promising solution, enhancing dataset diversity and improving the performance, reliability, and resilience of models. However, evaluating the quality of this generated data requires an effective metric. This paper introduces the Synthetic Dataset Quality Metric (SDQM) to assess data quality for object detection tasks without requiring model training to converge. This metric enables more efficient generation and selection of synthetic datasets, addressing a key challenge in resource-constrained object detection tasks. In our experiments, SDQM demonstrated a strong correlation with the mean Average Precision (mAP) scores of YOLOv11, a leading object detection model, while previous metrics only exhibited moderate or weak correlations. Additionally, it provides actionable insights for improving dataset quality, minimizing the need for costly iterative training. This scalable and efficient metric sets a new standard for evaluating synthetic data. The code for SDQM is available at https://github.com/ayushzenith/SDQM
PDF12October 9, 2025