Maximale Hersenschade Zonder Data of Optimalisatie: Verstoring van Neurale Netwerken via Sign-Bit Omkeringen

Samenvatting

Diepe neurale netwerken (DNN's) kunnen catastrofaal worden verstoord door slechts een handvol parameterbits om te klappen. Wij introduceren Deep Neural Lesion (DNL), een data-vrije en optimalisatie-vrije methode die kritieke parameters lokaliseert, en een verbeterde single-pass variant, 1P-DNL, die deze selectie verfijnt met één voorwaartse en achterwaartse pass op willekeurige inputs. Wij tonen aan dat deze kwetsbaarheid zich uitstrekt over meerdere domeinen, waaronder beeldclassificatie, objectdetectie, instancesegmentatie en redenerende large language models. Bij beeldclassificatie vermindert het omklappen van slechts twee tekenbits in ResNet-50 op ImageNet de nauwkeurigheid met 99,8%. Bij objectdetectie en instancesegmentatie doen één of twee tekenomkeringen in de backbone de COCO-detectie en masker-AP instorten voor Mask R-CNN en YOLOv8-seg modellen. Bij taalmodellering verminderen twee tekenomkeringen in verschillende experts de nauwkeurigheid van Qwen3-30B-A3B-Thinking van 78% naar 0%. Wij tonen ook aan dat het selectief beschermen van een kleine fractie kwetsbare tekenbits een praktische verdediging biedt tegen dergelijke aanvallen.

English

Deep Neural Networks (DNNs) can be catastrophically disrupted by flipping only a handful of parameter bits. We introduce Deep Neural Lesion (DNL), a data-free and optimizationfree method that locates critical parameters, and an enhanced single-pass variant, 1P-DNL, that refines this selection with one forward and backward pass on random inputs. We show that this vulnerability spans multiple domains, including image classification, object detection, instance segmentation, and reasoning large language models. In image classification, flipping just two sign bits in ResNet-50 on ImageNet reduces accuracy by 99.8%. In object detection and instance segmentation, one or two sign flips in the backbone collapse COCO detection and mask AP for Mask R-CNN and YOLOv8-seg models. In language modeling, two sign flips into different experts reduce Qwen3-30B-A3B-Thinking from 78% to 0% accuracy. We also show that selectively protecting a small fraction of vulnerable sign bits provides a practical defense against such attacks.

Maximale Hersenschade Zonder Data of Optimalisatie: Verstoring van Neurale Netwerken via Sign-Bit Omkeringen

Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

Samenvatting

Support