Attaque de camouflage en conditions réelles contre les détecteurs de véhicules par édition d'image contrôlable

Résumé

Les réseaux neuronaux profonds (DNN) ont obtenu un succès remarquable en vision par ordinateur, mais restent très vulnérables aux attaques adverses. Parmi celles-ci, les attaques par camouflage manipulent l'apparence visible d'un objet pour tromper les détecteurs tout en restant furtives pour les humains. Dans cet article, nous proposons un nouveau cadre qui formule les attaques par camouflage de véhicules comme un problème d'édition d'image conditionnelle. Plus précisément, nous explorons des stratégies de génération de camouflage au niveau de l'image et de la scène, et affinons un ControlNet pour synthétiser directement des véhicules camouflés sur des images réelles. Nous concevons un objectif unifié qui impose conjointement la fidélité structurelle du véhicule, la cohérence stylistique et l'efficacité antagoniste. Des expériences approfondies sur les ensembles de données COCO et LINZ montrent que notre méthode atteint une efficacité d'attaque significativement plus forte, entraînant une diminution de plus de 38% de l'AP50, tout en préservant mieux la structure du véhicule et en améliorant la furtivité perçue par l'homme par rapport aux approches existantes. De plus, notre cadre se généralise efficacement à des détecteurs boîte noire non vus et présente une transférabilité prometteuse vers le monde physique. La page du projet est disponible à l'adresse https://humansensinglab.github.io/CtrlCamo.

English

Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo

Attaque de camouflage en conditions réelles contre les détecteurs de véhicules par édition d'image contrôlable

In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing

Résumé

Support