ChatPaper.aiChatPaper

Addomesticare i Dati Sintetici Generativi per il Rilevamento di Oggetti Proibiti nelle Radiografie

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

November 19, 2025
Autori: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI

Abstract

L'addestramento di modelli per il rilevamento di oggetti proibiti richiede una grande quantità di immagini radiografiche di sicurezza, ma la raccolta e l'annotazione di queste immagini sono operazioni che richiedono molto tempo e fatica. Per ovviare all'insufficienza dei dati, i metodi di sintesi di immagini radiografiche di sicurezza compongono immagini per aumentare la dimensione dei dataset. Tuttavia, i metodi precedenti seguono principalmente una pipeline a due stadi: nella prima fase implementano un'estrazione laboriosa dei primi piani, per poi comporre le immagini nella seconda fase. Tale pipeline introduce inevitabilmente costi di manodopera aggiuntivi e non è efficiente. In questo articolo, proponiamo una pipeline di sintesi di immagini radiografiche di sicurezza a stadio unico (Xsyn) basata sulla generazione di immagini da testo, che incorpora due strategie efficaci per migliorare l'usabilità delle immagini sintetiche. La strategia di Affinamento con Cross-Attention (CAR) sfrutta la mappa di cross-attention del modello di diffusione per perfezionare l'annotazione del bounding box. La strategia di Modellazione dell'Occlusione dello Sfondo (BOM) modella esplicitamente l'occlusione dello sfondo nello spazio latente per aumentare la complessità dell'imaging. Per quanto a nostra conoscenza, rispetto ai metodi precedenti, Xsyn è il primo a raggiungere una sintesi di immagini radiografiche di sicurezza di alta qualità senza costi di manodopera aggiuntivi. Gli esperimenti dimostrano che il nostro metodo supera tutti i metodi precedenti con un miglioramento dell'1.2% nel mAP, e le immagini sintetiche generate dal nostro metodo sono utili per migliorare le prestazioni di rilevamento di oggetti proibiti su vari dataset e rilevatori di sicurezza a raggi X. Il codice è disponibile all'indirizzo https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
PDF22December 1, 2025