Domando Dados Sintéticos Generativos para Detecção de Itens Proibidos em Raios-X

Resumo

A detecção de itens proibidos em modelos de treinamento requer uma grande quantidade de imagens de raio-X de segurança, mas a coleta e anotação dessas imagens consome tempo e é trabalhosa. Para lidar com a insuficiência de dados, os métodos de síntese de imagens de raio-X de segurança compõem imagens para ampliar os conjuntos de dados. No entanto, métodos anteriores seguem principalmente um pipeline de dois estágios, onde implementam uma extração de primeiro plano trabalhosa no primeiro estágio e depois compõem as imagens no segundo estágio. Esse pipeline introduz um custo extra de mão de obra inevitável e não é eficiente. Neste artigo, propomos um pipeline de síntese de imagens de raio-X de segurança em um estágio (Xsyn) baseado na geração de texto para imagem, que incorpora duas estratégias eficazes para melhorar a usabilidade das imagens sintéticas. A estratégia de Refinamento de Atenção Cruzada (CAR) aproveita o mapa de atenção cruzada do modelo de difusão para refinar a anotação da caixa delimitadora. A estratégia de Modelagem de Oclusão de Fundo (BOM) modela explicitamente a oclusão de fundo no espaço latente para aumentar a complexidade da imagem. Até onde sabemos, em comparação com métodos anteriores, o Xsyn é o primeiro a alcançar uma síntese de imagens de raio-X de segurança de alta qualidade sem custo extra de mão de obra. Experimentos demonstram que nosso método supera todos os métodos anteriores com uma melhoria de 1,2% no mAP, e as imagens sintéticas geradas pelo nosso método são benéficas para melhorar o desempenho da detecção de itens proibidos em vários conjuntos de dados e detectores de raio-X de segurança. O código está disponível em https://github.com/pILLOW-1/Xsyn/.

English

Training prohibited item detection models requires a large amount of X-ray security images, but collecting and annotating these images is time-consuming and laborious. To address data insufficiency, X-ray security image synthesis methods composite images to scale up datasets. However, previous methods primarily follow a two-stage pipeline, where they implement labor-intensive foreground extraction in the first stage and then composite images in the second stage. Such a pipeline introduces inevitable extra labor cost and is not efficient. In this paper, we propose a one-stage X-ray security image synthesis pipeline (Xsyn) based on text-to-image generation, which incorporates two effective strategies to improve the usability of synthetic images. The Cross-Attention Refinement (CAR) strategy leverages the cross-attention map from the diffusion model to refine the bounding box annotation. The Background Occlusion Modeling (BOM) strategy explicitly models background occlusion in the latent space to enhance imaging complexity. To the best of our knowledge, compared with previous methods, Xsyn is the first to achieve high-quality X-ray security image synthesis without extra labor cost. Experiments demonstrate that our method outperforms all previous methods with 1.2% mAP improvement, and the synthetic images generated by our method are beneficial to improve prohibited item detection performance across various X-ray security datasets and detectors. Code is available at https://github.com/pILLOW-1/Xsyn/.