Tarnungsangriff auf Fahrzeugdetektoren in freier Wildbahn durch kontrollierte Bildbearbeitung

Zusammenfassung

Tiefe neuronale Netze (DNNs) haben bemerkenswerte Erfolge in der Computer Vision erzielt, bleiben jedoch äußerst anfällig für adversariale Angriffe. Unter diesen manipulieren Camouflage-Angriffe das sichtbare Erscheinungsbild eines Objekts, um Detektoren zu täuschen, während sie für Menschen unauffällig bleiben. In diesem Artikel schlagen wir ein neues Framework vor, das Fahrzeug-Camouflage-Angriffe als ein bedingtes Bildbearbeitungsproblem formuliert. Konkret untersuchen wir sowohl bild- als auch szenenbasierte Strategien zur Camouflage-Erzeugung und feintunen ein ControlNet, um camouflierte Fahrzeuge direkt auf realen Bildern zu synthetisieren. Wir entwerfen eine einheitliche Zielfunktion, die gleichzeitig strukturelle Treue des Fahrzeugs, Stilkonsistenz und adversariale Wirksamkeit erzwingt. Umfangreiche Experimente mit den COCO- und LINZ-Datensätzen zeigen, dass unsere Methode eine signifikant stärkere Angriffswirksamkeit erreicht – was zu einem AP50-Rückgang von mehr als 38 % führt – und gleichzeitig im Vergleich zu bestehenden Ansätzen die Fahrzeugstruktur besser erhält und die menschlich wahrgenommene Unauffälligkeit verbessert. Darüber hinaus verallgemeinert unser Framework effektiv auf unbekannte Black-Box-Detektoren und weist eine vielversprechende Übertragbarkeit in die physische Welt auf. Die Projektseite ist unter https://humansensinglab.github.io/CtrlCamo verfügbar.

English

Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo

Tarnungsangriff auf Fahrzeugdetektoren in freier Wildbahn durch kontrollierte Bildbearbeitung

In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing

Zusammenfassung

Support