Messung der Modellrobustheit mittels Fisher-Information: Spektrale Schranken, theoretische Garantien und praktische Algorithmen

Zusammenfassung

Die Robustheit tiefer neuronaler Netze ist für sicherheitskritische Anwendungen von entscheidender Bedeutung, doch bestehende Bewertungsmethoden sind oft angriffsabhängig und nicht interpretierbar. Wir schlagen eine prinzipienbasierte, angriffsunabhängige Robustheitsmetrik vor, die auf der Spektralnorm der Fisher-Informationsmatrix (FIM) basiert und die Worst-Case-Empfindlichkeit der Ausgabeverteilung des Modells gegenüber Eingabestörungen quantifiziert. Theoretisch zeigen wir, dass die FIM gleich der Varianz der Eingabe-Jacobi-Matrix ist, und leiten geschlossene Spektralschranken für gängige Architekturen her, darunter VGG, ResNet, DenseNet und Transformer, und liefern damit das erste theoretische Robustheitsranking. Um eine skalierbare Bewertung zu ermöglichen, entwickeln wir effiziente Algorithmen, einschließlich Potenziteration und Hutchinson-basierter Schätzung, die sowohl White-Box- als auch Black-Box-Einstellungen unterstützen. Umfangreiche Experimente mit mehreren Datensätzen, darunter CIFAR, ImageNet und medizinische Bilder, sowie mit mehreren Architekturen zeigen eine starke Korrelation zwischen unserer Metrik und der adversarialen Verwundbarkeit. Unser Framework dient als interpretierbares Diagnosewerkzeug, das angriffsbasierte Bewertungen ergänzt, Einblicke in die architekturelle Empfindlichkeit bietet und die Entwicklung robusterer Modelle leitet. Der Code ist verfügbar unter: https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.