ChatPaper.aiChatPaper

SDQM: Metrica di Qualità dei Dati Sintetici per la Valutazione di Dataset di Object Detection

SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation

October 8, 2025
Autori: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI

Abstract

Le prestazioni dei modelli di machine learning dipendono fortemente dai dati di addestramento. La scarsità di dataset su larga scala e ben annotati rappresenta una sfida significativa nella creazione di modelli robusti. Per affrontare questo problema, i dati sintetici generati attraverso simulazioni e modelli generativi sono emersi come una soluzione promettente, migliorando la diversità dei dataset e le prestazioni, l'affidabilità e la resilienza dei modelli. Tuttavia, valutare la qualità di questi dati generati richiede una metrica efficace. Questo articolo introduce la Synthetic Dataset Quality Metric (SDQM) per valutare la qualità dei dati nei task di object detection senza richiedere la convergenza dell'addestramento del modello. Questa metrica consente una generazione e selezione più efficiente di dataset sintetici, affrontando una sfida chiave nei task di object detection con risorse limitate. Nei nostri esperimenti, SDQM ha dimostrato una forte correlazione con i punteggi di mean Average Precision (mAP) di YOLOv11, un modello leader nel campo dell'object detection, mentre le metriche precedenti mostravano solo correlazioni moderate o deboli. Inoltre, fornisce indicazioni pratiche per migliorare la qualità dei dataset, riducendo al minimo la necessità di costosi cicli di addestramento iterativo. Questa metrica scalabile ed efficiente stabilisce un nuovo standard per la valutazione dei dati sintetici. Il codice per SDQM è disponibile all'indirizzo https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data. The scarcity of large-scale, well-annotated datasets poses significant challenges in creating robust models. To address this, synthetic data generated through simulations and generative models has emerged as a promising solution, enhancing dataset diversity and improving the performance, reliability, and resilience of models. However, evaluating the quality of this generated data requires an effective metric. This paper introduces the Synthetic Dataset Quality Metric (SDQM) to assess data quality for object detection tasks without requiring model training to converge. This metric enables more efficient generation and selection of synthetic datasets, addressing a key challenge in resource-constrained object detection tasks. In our experiments, SDQM demonstrated a strong correlation with the mean Average Precision (mAP) scores of YOLOv11, a leading object detection model, while previous metrics only exhibited moderate or weak correlations. Additionally, it provides actionable insights for improving dataset quality, minimizing the need for costly iterative training. This scalable and efficient metric sets a new standard for evaluating synthetic data. The code for SDQM is available at https://github.com/ayushzenith/SDQM
PDF12October 9, 2025