Danno Cerebrale Massimo Senza Dati o Ottimizzazione: Alterazione delle Reti Neurali tramite Inversione dei Bit di Segno

Abstract

Le Deep Neural Network (DNN) possono essere compromesse in modo catastrofico alterando solo una manciata di bit dei parametri. Introduciamo Deep Neural Lesion (DNL), un metodo senza dati e senza ottimizzazione che individua i parametri critici, e una variante potenziata single-pass, 1P-DNL, che affina questa selezione con un singolo passaggio in avanti e all'indietro su input casuali. Dimostriamo che questa vulnerabilità interessa molteplici domini, inclusi la classificazione di immagini, l'object detection, l'instance segmentation e i modelli linguistici di ragionamento di grandi dimensioni. Nella classificazione di immagini, l'inversione di soli due bit di segno in ResNet-50 su ImageNet riduce l'accuratezza del 99,8%. Nell'object detection e nell'instance segmentation, l'inversione di uno o due bit di segno nella backbone azzera l'AP di detection e di maschera COCO per i modelli Mask R-CNN e YOLOv8-seg. Nella modellazione linguistica, due inversioni di segno in diversi esperti riducono l'accuratezza di Qwen3-30B-A3B-Thinking dal 78% allo 0%. Mostriamo inoltre che proteggere selettivamente una piccola frazione dei bit di segno vulnerabili fornisce una difesa pratica contro tali attacchi.

English

Deep Neural Networks (DNNs) can be catastrophically disrupted by flipping only a handful of parameter bits. We introduce Deep Neural Lesion (DNL), a data-free and optimizationfree method that locates critical parameters, and an enhanced single-pass variant, 1P-DNL, that refines this selection with one forward and backward pass on random inputs. We show that this vulnerability spans multiple domains, including image classification, object detection, instance segmentation, and reasoning large language models. In image classification, flipping just two sign bits in ResNet-50 on ImageNet reduces accuracy by 99.8%. In object detection and instance segmentation, one or two sign flips in the backbone collapse COCO detection and mask AP for Mask R-CNN and YOLOv8-seg models. In language modeling, two sign flips into different experts reduce Qwen3-30B-A3B-Thinking from 78% to 0% accuracy. We also show that selectively protecting a small fraction of vulnerable sign bits provides a practical defense against such attacks.

Danno Cerebrale Massimo Senza Dati o Ottimizzazione: Alterazione delle Reti Neurali tramite Inversione dei Bit di Segno

Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

Abstract

Support