Het Temmen van Generatief Synthetische Data voor de Detectie van Verboden Items op Röntgenfoto's
Taming Generative Synthetic Data for X-ray Prohibited Item Detection
November 19, 2025
Auteurs: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI
Samenvatting
Het trainen van detectiemodellen voor verboden voorwerpen vereist een grote hoeveelheid röntgenbeveiligingsbeelden, maar het verzamelen en annoteren van deze beelden is tijdrovend en arbeidsintensief. Om datatekort aan te pakken, synthetiseren röntgenbeveiligingsbeeld-synthesemethoden beelden om datasets te vergroten. Eerdere methoden volgden echter voornamelijk een tweestappenpijplijn, waarbij ze in de eerste fase arbeidsintensieve voorgrondextractie uitvoeren en in de tweede fase beelden samenstellen. Zo'n pijplijn introduceert onvermijdelijke extra arbeidskosten en is niet efficiënt. In dit artikel stellen we een eenstaps röntgenbeveiligingsbeeld-synthesepijplijn (Xsyn) voor op basis van tekst-naar-beeld-generatie, waarin twee effectieve strategieën zijn geïntegreerd om de bruikbaarheid van synthetische beelden te verbeteren. De Cross-Attention Refinement (CAR)-strategie benut de cross-attention-kaart van het diffusiemodel om de annotatie van begrenzingskaders te verfijnen. De Background Occlusion Modeling (BOM)-strategie modelleert expliciet achtergrondocclusie in de latente ruimte om de beeldcomplexiteit te vergroten. Voor zover wij weten, is Xsyn in vergelijking met eerdere methoden de eerste die hoogwaardige röntgenbeveiligingsbeeldsynthese bereikt zonder extra arbeidskosten. Experimenten tonen aan dat onze methode alle eerdere methoden overtreft met een verbetering van 1,2% mAP, en dat de door onze methode gegenereerde synthetische beelden bijdragen aan het verbeteren van de detectieprestaties van verboden voorwerpen across verschillende röntgenbeveiligingsdatasets en detectoren. Code is beschikbaar op https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.