Ataque de Camuflagem em Ambiente Real a Detectores de Veículos por Meio de Edição Controlável de Imagem
In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing
March 19, 2026
Autores: Xiao Fang, Yiming Gong, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Resumo
As redes neurais profundas (DNNs) alcançaram sucesso notável em visão computacional, mas permanecem altamente vulneráveis a ataques adversariais. Entre eles, os ataques de camuflagem manipulam a aparência visível de um objeto para enganar detectores, mantendo-se furtivos para humanos. Neste artigo, propomos uma nova estrutura que formula os ataques de camuflagem de veículos como um problema de edição de imagem condicional. Especificamente, exploramos estratégias de geração de camuflagem em nível de imagem e em nível de cena, e ajustamos finamente um ControlNet para sintetizar veículos camuflados diretamente em imagens reais. Projetamos um objetivo unificado que aplica conjuntamente fidelidade estrutural do veículo, consistência de estilo e eficácia adversária. Experimentos extensivos nos conjuntos de dados COCO e LINZ mostram que nosso método alcança uma eficácia de ataque significativamente maior, levando a uma diminuição de mais de 38% no AP50, enquanto preserva melhor a estrutura do veículo e melhora a furtividade percebida por humanos em comparação com as abordagens existentes. Além disso, nossa estrutura generaliza efetivamente para detectores black-box não vistos e exibe uma transferibilidade promissora para o mundo físico. A página do projeto está disponível em https://humansensinglab.github.io/CtrlCamo.
English
Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo