ChatPaper.aiChatPaper

X-ray 금지물품 탐지를 위한 생성형 합성 데이터 활용 방법

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

November 19, 2025
저자: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI

초록

금지품 탐지 모델 학습에는 대량의 X-ray 보안 이미지가 필요하지만, 이러한 이미지를 수집하고 주석을 달기는 시간과 노력이 많이 소요됩니다. 데이터 부족 문제를 해결하기 위해 X-ray 보안 이미지 합성 방법은 데이터셋 규모를 확장하기 위해 이미지를 합성합니다. 그러나 기존 방법은 주로 두 단계 파이프라인을 따르며, 첫 번째 단계에서 노동 집약적인 전경 추출을 구현한 후 두 번째 단계에서 이미지를 합성합니다. 이러한 파이프라인은 불가피한 추가 노동 비용을 발생시키고 효율적이지 않습니다. 본 논문에서는 텍스트-이미지 생성 기반의 단일 단계 X-ray 보안 이미지 합성 파이프라인(Xsyn)을 제안하며, 합성 이미지의 활용성을 향상시키기 위한 두 가지 효과적인 전략을 통합합니다. 교차 주의 정제(CAR) 전략은 디퓨전 모델의 교차 주의 맵을 활용하여 바운딩 박스 주석을 개선합니다. 배경 폐색 모델링(BOM) 전략은 이미징 복잡성을 향상시키기 위해 잠재 공간에서 배경 폐색을 명시적으로 모델링합니다. 우리가 알고 있는 한, Xsyn은 기존 방법 대비 추가 노동 비용 없이 고품질 X-ray 보안 이미지 합성을 최초로 달성했습니다. 실험 결과, 우리의 방법은 mAP 1.2% 향상으로 모든 기존 방법을 능가하며, 우리 방법으로 생성된 합성 이미지는 다양한 X-ray 보안 데이터셋과 탐지기에서 금지품 탐지 성능 향상에 도움이 되는 것으로 입증되었습니다. 코드는 https://github.com/pILLOW-1/Xsyn/에서 확인할 수 있습니다.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
PDF22December 1, 2025