Attacco mimetico in ambiente reale ai rilevatori di veicoli tramite editing controllabile delle immagini
In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing
March 19, 2026
Autori: Xiao Fang, Yiming Gong, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Abstract
Le reti neurali profonde (DNN) hanno ottenuto notevoli successi nel campo della visione artificiale, ma rimangono altamente vulnerabili agli attacchi avversari. Tra questi, gli attacchi di mimetizzazione alterano l'aspetto visibile di un oggetto per ingannare i rilevatori mantenendo al contempo l'inafferabilità per gli esseri umani. In questo articolo proponiamo un nuovo framework che formula gli attacchi di mimetizzazione veicolare come un problema di editing condizionato delle immagini. Nello specifico, esploriamo strategie di generazione di mimetizzazione a livello di immagine e di scena, e ottimizziamo un ControlNet per sintetizzare veicoli mimetizzati direttamente su immagini reali. Progettiamo un obiettivo unificato che applica congiuntamente la fedeltà strutturale del veicolo, la coerenza stilistica e l'efficacia avversaria. Esperimenti estesi sui dataset COCO e LINZ dimostrano che il nostro metodo raggiunge un'efficacia d'attacco significativamente superiore, portando a una diminuzione superiore al 38% dell'AP50, preservando meglio la struttura del veicolo e migliorando l'inafferabilità percepita dall'uomo rispetto agli approcci esistenti. Inoltre, il nostro framework si generalizza efficacemente a rilevatori black-box non visti e mostra una promettente trasferibilità al mondo fisico. La pagina del progetto è disponibile all'indirizzo https://humansensinglab.github.io/CtrlCamo.
English
Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo