Mesure de la robustesse des modèles via l'information de Fisher : bornes spectrales, garanties théoriques et algorithmes pratiques

Résumé

La robustesse des réseaux de neurones profonds est cruciale pour les déploiements critiques en matière de sécurité, mais les méthodes d'évaluation existantes dépendent souvent des attaques et manquent d'interprétabilité. Nous proposons une métrique de robustesse fondée sur des principes, indépendante des attaques, basée sur la norme spectrale de la matrice d'information de Fisher (FIM), qui quantifie la sensibilité dans le pire cas de la distribution de sortie du modèle aux perturbations d'entrée. Théoriquement, nous établissons que la FIM est égale à la variance du Jacobien d'entrée et dérivons des bornes spectrales sous forme fermée pour des architectures courantes, notamment VGG, ResNet, DenseNet et Transformer, fournissant ainsi le premier classement théorique de robustesse. Pour permettre une évaluation à grande échelle, nous développons des algorithmes efficaces, incluant l'itération par puissance et l'estimation basée sur Hutchinson, qui prennent en charge à la fois les contextes en boîte blanche et en boîte noire. Des expériences approfondies sur plusieurs ensembles de données, dont CIFAR, ImageNet et des images médicales, ainsi que sur plusieurs architectures, montrent une forte corrélation entre notre métrique et la vulnérabilité aux attaques adverses. Notre cadre sert d'outil diagnostique interprétable complétant les évaluations basées sur les attaques, offrant des perspectives sur la sensibilité architecturale et guidant la conception de modèles plus robustes. Le code est disponible à l'adresse : https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.