SDQM: Métrica de Qualidade de Dados Sintéticos para Avaliação de Conjuntos de Dados em Detecção de Objetos
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
Autores: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
Resumo
O desempenho dos modelos de aprendizado de máquina depende fortemente dos dados de treinamento.
A escassez de conjuntos de dados em grande escala e bem anotados representa desafios
significativos na criação de modelos robustos. Para enfrentar esse problema, os dados sintéticos gerados
por meio de simulações e modelos generativos surgiram como uma solução promissora,
aumentando a diversidade dos conjuntos de dados e melhorando o desempenho, a confiabilidade e
a resiliência dos modelos. No entanto, avaliar a qualidade desses dados gerados
requer uma métrica eficaz. Este artigo apresenta a Métrica de Qualidade de Conjunto de Dados Sintéticos (SDQM, na sigla em inglês)
para avaliar a qualidade dos dados em tarefas de detecção de objetos sem
exigir que o treinamento do modelo convirja. Essa métrica permite uma geração e seleção
mais eficiente de conjuntos de dados sintéticos, abordando um desafio crucial em
tarefas de detecção de objetos com recursos limitados. Em nossos experimentos, a SDQM
demonstrou uma forte correlação com as pontuações de Precisão Média (mAP, na sigla em inglês)
do YOLOv11, um modelo líder em detecção de objetos, enquanto métricas anteriores
apresentaram apenas correlações moderadas ou fracas. Além disso, ela fornece insights
acionáveis para melhorar a qualidade dos conjuntos de dados, minimizando a necessidade de
treinamentos iterativos custosos. Essa métrica escalável e eficiente estabelece um novo padrão
para a avaliação de dados sintéticos. O código da SDQM está disponível em
https://github.com/ayushzenith/SDQM.
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM