SDQM: Métrica de Calidad de Datos Sintéticos para la Evaluación de Conjuntos de Datos de Detección de Objetos
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
Autores: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
Resumen
El rendimiento de los modelos de aprendizaje automático depende en gran medida de los datos de entrenamiento. La escasez de conjuntos de datos a gran escala y bien anotados plantea desafíos significativos para la creación de modelos robustos. Para abordar este problema, los datos sintéticos generados mediante simulaciones y modelos generativos han surgido como una solución prometedora, mejorando la diversidad de los conjuntos de datos y optimizando el rendimiento, la confiabilidad y la resiliencia de los modelos. Sin embargo, evaluar la calidad de estos datos generados requiere una métrica efectiva. Este artículo presenta la Métrica de Calidad de Conjuntos de Datos Sintéticos (SDQM, por sus siglas en inglés) para evaluar la calidad de los datos en tareas de detección de objetos sin necesidad de que el entrenamiento del modelo converja. Esta métrica permite una generación y selección más eficiente de conjuntos de datos sintéticos, abordando un desafío clave en tareas de detección de objetos con recursos limitados. En nuestros experimentos, SDQM demostró una fuerte correlación con las puntuaciones de Precisión Media Promedio (mAP) de YOLOv11, un modelo líder en detección de objetos, mientras que métricas anteriores solo mostraron correlaciones moderadas o débiles. Además, proporciona información práctica para mejorar la calidad de los conjuntos de datos, minimizando la necesidad de costosos entrenamientos iterativos. Esta métrica escalable y eficiente establece un nuevo estándar para evaluar datos sintéticos. El código de SDQM está disponible en https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM