生成型合成データを活用したX線禁止物品検出の制御
Taming Generative Synthetic Data for X-ray Prohibited Item Detection
November 19, 2025
著者: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI
要旨
禁止物検出モデルの学習には大量のX線セキュリティ画像が必要ですが、これらの画像の収集と注釈付けは時間と労力を要します。データ不足に対処するため、X線セキュリティ画像合成手法では画像を合成してデータセットを拡張します。しかし、従来手法は主に2段階のパイプラインを採用しており、最初の段階で労力を要する前景抽出を実施し、次の段階で画像合成を行います。このようなパイプラインは避けられない追加の人的コストを生み、効率的ではありません。本論文では、テキストから画像への生成に基づく1段階のX線セキュリティ画像合成パイプライン(Xsyn)を提案し、合成画像の実用性を高めるための2つの効果的な戦略を組み込みます。Cross-Attention Refinement(CAR)戦略では、拡散モデルから得られるクロスアテンションマップを活用してバウンディングボックスの注釈を精緻化します。Background Occlusion Modeling(BOM)戦略では、潜在空間における背景のオクルージョンを明示的にモデル化し、画像の複雑性を高めます。私たちの知る限り、Xsynは従来手法と比較して、追加の人的コストなしに高品質なX線セキュリティ画像合成を実現した初めての手法です。実験により、本手法が従来手法をすべて上回り(mAPで1.2%向上)、本手法で生成された合成画像が様々なX線セキュリティデータセットと検出器における禁止物検出性能の向上に有益であることが実証されました。コードはhttps://github.com/pILLOW-1/Xsyn/ で公開されています。
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.