SDQM: 物体検出データセット評価のための合成データ品質指標
SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
October 8, 2025
著者: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI
要旨
機械学習モデルの性能は、訓練データに大きく依存します。大規模で適切に注釈付けされたデータセットの不足は、堅牢なモデルの作成において重大な課題となっています。この問題に対処するため、シミュレーションや生成モデルを通じて生成された合成データが有望な解決策として登場し、データセットの多様性を高め、モデルの性能、信頼性、および耐性を向上させています。しかし、生成されたデータの品質を評価するには、効果的な指標が必要です。本論文では、モデルの訓練を収束させることなく、物体検出タスクにおけるデータ品質を評価するための合成データセット品質指標(Synthetic Dataset Quality Metric, SDQM)を提案します。この指標により、リソースが制約された物体検出タスクにおいて、合成データセットの生成と選択がより効率的に行えるようになります。実験では、SDQMは主要な物体検出モデルであるYOLOv11の平均精度(mAP)スコアと強い相関を示し、従来の指標では中程度または弱い相関しか見られなかったのに対し、顕著な改善が見られました。さらに、SDQMはデータセット品質の向上に役立つ実践的な洞察を提供し、コストのかかる反復的な訓練の必要性を最小限に抑えます。このスケーラブルで効率的な指標は、合成データの評価において新たな基準を確立します。SDQMのコードはhttps://github.com/ayushzenith/SDQMで公開されています。
English
The performance of machine learning models depends heavily on training data.
The scarcity of large-scale, well-annotated datasets poses significant
challenges in creating robust models. To address this, synthetic data generated
through simulations and generative models has emerged as a promising solution,
enhancing dataset diversity and improving the performance, reliability, and
resilience of models. However, evaluating the quality of this generated data
requires an effective metric. This paper introduces the Synthetic Dataset
Quality Metric (SDQM) to assess data quality for object detection tasks without
requiring model training to converge. This metric enables more efficient
generation and selection of synthetic datasets, addressing a key challenge in
resource-constrained object detection tasks. In our experiments, SDQM
demonstrated a strong correlation with the mean Average Precision (mAP) scores
of YOLOv11, a leading object detection model, while previous metrics only
exhibited moderate or weak correlations. Additionally, it provides actionable
insights for improving dataset quality, minimizing the need for costly
iterative training. This scalable and efficient metric sets a new standard for
evaluating synthetic data. The code for SDQM is available at
https://github.com/ayushzenith/SDQM