Атака с камуфляжем в естественных условиях на детекторы транспортных средств с помощью контролируемого редактирования изображений
In-the-Wild Camouflage Attack on Vehicle Detectors through Controllable Image Editing
March 19, 2026
Авторы: Xiao Fang, Yiming Gong, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre
cs.AI
Аннотация
Глубокие нейронные сети (ГНС) достигли выдающихся успехов в компьютерном зрении, но остаются крайне уязвимыми к атакам со стороны противника. Среди них камуфляжные атаки манипулируют видимым внешним видом объекта, чтобы обмануть детекторы, оставаясь незаметными для человека. В данной статье мы предлагаем новую структуру, которая формулирует камуфляжные атаки на транспортные средства как задачу условного редактирования изображений. В частности, мы исследуем стратегии генерации камуфляжа как на уровне изображения, так и на уровне сцены, и дообучаем ControlNet для синтеза закамуфлированных транспортных средств непосредственно на реальных изображениях. Мы разрабатываем унифицированную целевую функцию, которая совместно обеспечивает структурную достоверность транспортного средства, согласованность стиля и эффективность атаки. Многочисленные эксперименты на наборах данных COCO и LINZ показывают, что наш метод достигает значительно более высокой эффективности атаки, приводя к снижению метрики AP50 более чем на 38%, при этом лучше сохраняя структуру транспортного средства и повышая незаметность с точки зрения человеческого восприятия по сравнению с существующими подходами. Кроме того, наша структура эффективно обобщается на неизвестные черно-бокс детекторы и демонстрирует многообещающую переносимость в физический мир. Страница проекта доступна по адресу https://humansensinglab.github.io/CtrlCamo.
English
Deep neural networks (DNNs) have achieved remarkable success in computer vision but remain highly vulnerable to adversarial attacks. Among them, camouflage attacks manipulate an object's visible appearance to deceive detectors while remaining stealthy to humans. In this paper, we propose a new framework that formulates vehicle camouflage attacks as a conditional image-editing problem. Specifically, we explore both image-level and scene-level camouflage generation strategies, and fine-tune a ControlNet to synthesize camouflaged vehicles directly on real images. We design a unified objective that jointly enforces vehicle structural fidelity, style consistency, and adversarial effectiveness. Extensive experiments on the COCO and LINZ datasets show that our method achieves significantly stronger attack effectiveness, leading to more than 38% AP50 decrease, while better preserving vehicle structure and improving human-perceived stealthiness compared to existing approaches. Furthermore, our framework generalizes effectively to unseen black-box detectors and exhibits promising transferability to the physical world. Project page is available at https://humansensinglab.github.io/CtrlCamo