Ataque de Camuflaje en Entornos Reales a Detectores de Vehículos mediante Edición Controlable de Imágenes

Resumen

Las redes neuronales profundas (DNN) han logrado un éxito notable en visión por computadora, pero siguen siendo altamente vulnerables a los ataques adversarios. Entre ellos, los ataques de camuflaje manipulan la apariencia visible de un objeto para engañar a los detectores mientras permanecen imperceptibles para los humanos. En este artículo, proponemos un nuevo marco que formula los ataques de camuflaje de vehículos como un problema de edición de imágenes condicional. Específicamente, exploramos estrategias de generación de camuflaje a nivel de imagen y a nivel de escena, y ajustamos un ControlNet para sintetizar vehículos camuflados directamente en imágenes reales. Diseñamos un objetivo unificado que aplica conjuntamente fidelidad estructural del vehículo, consistencia de estilo y efectividad adversarial. Experimentos exhaustivos en los conjuntos de datos COCO y LINZ muestran que nuestro método logra una efectividad de ataque significativamente mayor, provocando una disminución de más del 38% en AP50, mientras preserva mejor la estructura del vehículo y mejora la imperceptibilidad percibida por humanos en comparación con enfoques existentes. Además, nuestro marco se generaliza efectivamente a detectores de caja negra no vistos y exhibe una transferibilidad prometedora al mundo físico. La página del proyecto está disponible en https://humansensinglab.github.io/CtrlCamo.

English

Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo

Ataque de Camuflaje en Entornos Reales a Detectores de Vehículos mediante Edición Controlable de Imágenes

In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing

Resumen

Support