Dano Cerebral Máximo sem Dados ou Otimização: Perturbando Redes Neurais por meio de Inversão de Bits de Sinal

Resumo

Redes Neurais Profundas (DNNs) podem ser catastróficamente comprometidas ao inverter apenas um punhado de bits dos parâmetros. Apresentamos a Lesão Neural Profunda (DNL), um método livre de dados e de otimização que localiza parâmetros críticos, e uma variante aprimorada de passagem única, 1P-DNL, que refina essa seleção com uma passagem direta e reversa em entradas aleatórias. Demonstramos que essa vulnerabilidade abrange múltiplos domínios, incluindo classificação de imagens, detecção de objetos, segmentação de instâncias e modelos de linguagem grandes de raciocínio. Na classificação de imagens, inverter apenas dois bits de sinal na ResNet-50 no ImageNet reduz a precisão em 99,8%. Na detecção de objetos e segmentação de instâncias, uma ou duas inversões de sinal na backbone colapsam a AP de detecção e máscara do COCO para os modelos Mask R-CNN e YOLOv8-seg. Na modelagem de linguagem, duas inversões de sinal em diferentes especialistas reduzem a precisão do Qwen3-30B-A3B-Thinking de 78% para 0%. Também mostramos que proteger seletivamente uma pequena fração dos bits de sinal vulneráveis oferece uma defesa prática contra tais ataques.

English

Deep Neural Networks (DNNs) can be catastrophically disrupted by flipping only a handful of parameter bits. We introduce Deep Neural Lesion (DNL), a data-free and optimizationfree method that locates critical parameters, and an enhanced single-pass variant, 1P-DNL, that refines this selection with one forward and backward pass on random inputs. We show that this vulnerability spans multiple domains, including image classification, object detection, instance segmentation, and reasoning large language models. In image classification, flipping just two sign bits in ResNet-50 on ImageNet reduces accuracy by 99.8%. In object detection and instance segmentation, one or two sign flips in the backbone collapse COCO detection and mask AP for Mask R-CNN and YOLOv8-seg models. In language modeling, two sign flips into different experts reduce Qwen3-30B-A3B-Thinking from 78% to 0% accuracy. We also show that selectively protecting a small fraction of vulnerable sign bits provides a practical defense against such attacks.

Dano Cerebral Máximo sem Dados ou Otimização: Perturbando Redes Neurais por meio de Inversão de Bits de Sinal

Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

Resumo

Support