ChatPaper.aiChatPaper

Maîtriser les données synthétiques génératives pour la détection d'objets interdits dans les images radiographiques

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

November 19, 2025
papers.authors: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI

papers.abstract

La détection d'objets interdits nécessite l'entraînement de modèles sur un grand nombre d'images de sécurité par rayons X, mais la collecte et l'annotation de ces images s'avèrent longues et fastidieuses. Pour pallier l'insuffisance des données, les méthodes de synthèse d'images de sécurité par rayons X combinent des images afin d'augmenter la taille des jeux de données. Cependant, les approches antérieures suivent principalement un pipeline en deux étapes : elles mettent en œuvre une extraction fastidieuse des objets au premier plan dans la première étape, puis composent les images dans la seconde. Un tel pipeline introduit un coût de main-d'œuvre supplémentaire inévitable et manque d'efficacité. Dans cet article, nous proposons un pipeline de synthèse d'images de sécurité par rayons X en une seule étape (Xsyn) basé sur la génération d'images à partir de texte, qui intègre deux stratégies efficaces pour améliorer la convivialité des images synthétiques. La stratégie de Raffinement par Attention Croisée (CAR) exploite la carte d'attention croisée du modèle de diffusion pour affiner l'annotation des boîtes englobantes. La stratégie de Modélisation de l'Occlusion de l'Arrière-plan (BOM) modélise explicitement l'occlusion de l'arrière-plan dans l'espace latent pour accroître la complexité de l'imagerie. À notre connaissance, comparée aux méthodes précédentes, Xsyn est la première à réaliser une synthèse d'images de sécurité par rayons X de haute qualité sans coût de main-d'œuvre supplémentaire. Les expériences démontrent que notre méthode surpasse toutes les approches antérieures avec une amélioration de 1,2% de l'mAP, et que les images synthétiques générées par notre méthode contribuent à améliorer les performances de détection d'objets interdits sur divers jeux de données et détecteurs de sécurité par rayons X. Le code est disponible à l'adresse https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
PDF22December 1, 2025