ChatPaper.aiChatPaper

SDQM: 객체 탐지 데이터셋 평가를 위한 합성 데이터 품질 지표

SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation

October 8, 2025
저자: Ayush Zenith, Arnold Zumbrun, Neel Raut, Jing Lin
cs.AI

초록

머신러닝 모델의 성능은 학습 데이터에 크게 의존합니다. 대규모로 잘 주석 처리된 데이터셋의 부족은 강력한 모델을 구축하는 데 있어 상당한 어려움을 야기합니다. 이를 해결하기 위해 시뮬레이션과 생성 모델을 통해 생성된 합성 데이터가 유망한 해결책으로 부상하며, 데이터셋의 다양성을 높이고 모델의 성능, 신뢰성 및 견고성을 개선하고 있습니다. 그러나 이러한 생성된 데이터의 품질을 평가하기 위해서는 효과적인 지표가 필요합니다. 본 논문은 모델 학습의 수렴을 요구하지 않고 객체 탐지 작업을 위한 데이터 품질을 평가하기 위해 합성 데이터셋 품질 지표(Synthetic Dataset Quality Metric, SDQM)를 소개합니다. 이 지표는 자원이 제한된 객체 탐지 작업에서 핵심적인 문제를 해결하며, 합성 데이터셋의 보다 효율적인 생성과 선택을 가능하게 합니다. 우리의 실험에서 SDQM은 선도적인 객체 탐지 모델인 YOLOv11의 평균 정밀도(mean Average Precision, mAP) 점수와 강한 상관관계를 보였으며, 기존 지표들은 중간 또는 약한 상관관계만을 보였습니다. 또한, 이 지표는 데이터셋 품질을 개선하기 위한 실행 가능한 통찰력을 제공하여 비용이 많이 드는 반복 학습의 필요성을 최소화합니다. 이 확장 가능하고 효율적인 지표는 합성 데이터 평가를 위한 새로운 기준을 제시합니다. SDQM의 코드는 https://github.com/ayushzenith/SDQM에서 확인할 수 있습니다.
English
The performance of machine learning models depends heavily on training data. The scarcity of large-scale, well-annotated datasets poses significant challenges in creating robust models. To address this, synthetic data generated through simulations and generative models has emerged as a promising solution, enhancing dataset diversity and improving the performance, reliability, and resilience of models. However, evaluating the quality of this generated data requires an effective metric. This paper introduces the Synthetic Dataset Quality Metric (SDQM) to assess data quality for object detection tasks without requiring model training to converge. This metric enables more efficient generation and selection of synthetic datasets, addressing a key challenge in resource-constrained object detection tasks. In our experiments, SDQM demonstrated a strong correlation with the mean Average Precision (mAP) scores of YOLOv11, a leading object detection model, while previous metrics only exhibited moderate or weak correlations. Additionally, it provides actionable insights for improving dataset quality, minimizing the need for costly iterative training. This scalable and efficient metric sets a new standard for evaluating synthetic data. The code for SDQM is available at https://github.com/ayushzenith/SDQM
PDF12October 9, 2025