ChatPaper.aiChatPaper

Domando los Datos Sintéticos Generativos para la Detección de Objetos Prohibidos en Rayos X

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

November 19, 2025
Autores: Jialong Sun, Hongguang Zhu, Weizhe Liu, Yunda Sun, Renshuai Tao, Yunchao Wei
cs.AI

Resumen

La detección de objetos prohibidos mediante modelos de aprendizaje automático requiere una gran cantidad de imágenes de seguridad por rayos X, cuya recopilación y anotación resulta costosa en tiempo y recursos. Para abordar la insuficiencia de datos, los métodos de síntesis de imágenes de seguridad por rayos X combinan imágenes para ampliar los conjuntos de datos. No obstante, los enfoques previos siguen principalmente un pipeline de dos etapas: implementan una laboriosa extracción de objetos en primer plano en la primera etapa y luego combinan las imágenes en la segunda. Este pipeline introduce inevitablemente costos adicionales de mano de obra y no es eficiente. En este artículo, proponemos un pipeline de síntesis de imágenes de seguridad por rayos X en una sola etapa (Xsyn) basado en generación de texto a imagen, que incorpora dos estrategias efectivas para mejorar la usabilidad de las imágenes sintéticas. La estrategia de Refinamiento por Atención Cruzada (CAR) utiliza el mapa de atención cruzada del modelo de difusión para refinar las anotaciones de cuadros delimitadores. La estrategia de Modelado de Oclusión de Fondo (BOM) modela explícitamente la oclusión del fondo en el espacio latente para aumentar la complejidad de la imagen. Hasta donde sabemos, en comparación con métodos anteriores, Xsyn es el primero en lograr una síntesis de imágenes de seguridad por rayos X de alta calidad sin costos adicionales de mano de obra. Los experimentos demuestran que nuestro método supera a todos los enfoques previos con una mejora del 1.2% en mAP, y que las imágenes sintéticas generadas por nuestro método benefician el rendimiento de detección de objetos prohibidos en diversos conjuntos de datos y detectores de seguridad por rayos X. El código está disponible en https://github.com/pILLOW-1/Xsyn/.
English
Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.
PDF22December 1, 2025