Bändigung generativ synthetischer Daten für die Röntgen-Erkennung verbotener Gegenstände
Taming Generative Synthetic Data for X-ray Prohibited Item Detection
November 19, 2025
papers.authors: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI
papers.abstract
Das Training von Modellen zur Erkennung verbotener Gegenstände erfordert eine große Menge an Röntgensicherheitsbildern, doch das Sammeln und Annotieren dieser Bilder ist zeitaufwändig und mühsam. Um Datenknappheit zu begegnen, synthetisieren Methoden zur Erzeugung von Röntgensicherheitsbildern Bilder, um Datensätze zu vergrößern. Bisherige Methoden folgen jedoch primär einer Zwei-Stufen-Pipeline, bei der in der ersten Stufe arbeitsintensive Vordergrundextraktion durchgeführt wird und in der zweiten Stufe Bilder zusammengesetzt werden. Eine solche Pipeline verursacht unvermeidbare zusätzliche Arbeitskosten und ist nicht effizient. In diesem Artikel schlagen wir eine einstufige Pipeline zur Synthese von Röntgensicherheitsbildern (Xsyn) basierend auf Text-zu-Bild-Generierung vor, die zwei effektive Strategien integriert, um die Nutzbarkeit synthetischer Bilder zu verbessern. Die Cross-Attention-Verfeinerungsstrategie (CAR) nutzt die Cross-Attention-Map des Diffusionsmodells, um die Bounding-Box-Annotation zu verfeinern. Die Strategie zur Modellierung von Hintergrundverdeckungen (BOM) modelliert Hintergrundverdeckungen explizit im latenten Raum, um die Bildkomplexität zu erhöhen. Nach unserem Wissenstand ist Xsyn im Vergleich zu früheren Methoden die erste, die eine hochwertige Synthese von Röntgensicherheitsbildern ohne zusätzliche Arbeitskosten erreicht. Experimente zeigen, dass unsere Methode alle bisherigen Methoden mit einer Verbesserung des mAP um 1,2 % übertrifft und die von unserer Methode generierten synthetischen Bilder die Erkennungsleistung verbotener Gegenstände über verschiedene Röntgensicherheitsdatensätze und Detektoren hinweg verbessern. Der Code ist verfügbar unter https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.