Укрощение генеративных синтетических данных для обнаружения запрещенных предметов на рентгеновских снимках
Taming Generative Synthetic Data for X-ray Prohibited Item Detection
November 19, 2025
Авторы: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI
Аннотация
Обучение моделей обнаружения запрещенных предметов требует большого количества рентгеновских изображений безопасности, однако сбор и аннотирование этих изображений являются трудоемкими и затратными по времени. Для решения проблемы недостатка данных методы синтеза рентгеновских изображений безопасности комбинируют изображения для масштабирования наборов данных. Однако предыдущие методы в основном следуют двухэтапному конвейеру: на первом этапе выполняется трудоемкое извлечение переднего плана, а на втором этапе изображения компонуются. Такой подход приводит к неизбежным дополнительным трудозатратам и не является эффективным. В данной статье мы предлагаем одноэтапный конвейер синтеза рентгеновских изображений безопасности (Xsyn) на основе генерации изображений по текстовому описанию, который включает две эффективные стратегии для повышения пригодности синтетических изображений. Стратегия уточнения через кросс-внимание (Cross-Attention Refinement, CAR) использует карту кросс-внимания из диффузионной модели для уточнения аннотаций ограничивающих рамок. Стратегия моделирования окклюзии фона (Background Occlusion Modeling, BOM) явно моделирует перекрытие фона в латентном пространстве для повышения сложности изображения. Насколько нам известно, Xsyn является первым методом, который позволяет достичь высококачественного синтеза рентгеновских изображений безопасности без дополнительных трудозатрат в сравнении с предыдущими подходами. Эксперименты показывают, что наш метод превосходит все предыдущие подходы с улучшением mAP на 1,2%, а синтетические изображения, сгенерированные нашим методом, способствуют повышению производительности обнаружения запрещенных предметов на различных наборах рентгеновских данных безопасности и с использованием различных детекторов. Код доступен по адресу https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.