Modelrobustheid meten via Fisher-informatie: spectrale grenzen, theoretische garanties en praktische algoritmen

Samenvatting

De robuustheid van diepe neurale netwerken is cruciaal voor veiligheidskritische toepassingen, maar bestaande evaluatiemethoden zijn vaak aanvalsafhankelijk en missen interpreteerbaarheid. We stellen een principe-gebaseerde, aanvalsagnostische robuustheidsmetriek voor, gebaseerd op de spectrale norm van de Fisher-informatiematrix (FIM), die de worst-case gevoeligheid van de outputverdeling van het model voor invoerverstoringen kwantificeert. Theoretisch bewijzen we dat de FIM gelijk is aan de variantie van de invoer-Jacobiaan en leiden we gesloten-vorm spectrale grenzen af voor veelvoorkomende architecturen, waaronder VGG, ResNet, DenseNet en Transformer, wat de eerste theoretische robuustheidsrangschikking biedt. Om schaalbare evaluatie mogelijk te maken, ontwikkelen we efficiënte algoritmen, waaronder machtsiteratie en op Hutchinson gebaseerde schatting, die zowel white-box- als black-box-instellingen ondersteunen. Uitgebreide experimenten over meerdere datasets, waaronder CIFAR, ImageNet en medische beelden, en over meerdere architecturen tonen een sterke correlatie aan tussen onze metriek en adversarial kwetsbaarheid. Ons raamwerk dient als een interpreteerbaar diagnostisch hulpmiddel dat aanvalsgebaseerde evaluaties aanvult, inzichten biedt in architectonische gevoeligheid en het ontwerp van robuustere modellen begeleidt. Code is beschikbaar op: https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.