Измерение робастности модели с помощью информации Фишера: спектральные границы, теоретические гарантии и практические алгоритмы

Аннотация

Устойчивость глубоких нейронных сетей имеет решающее значение для их применения в критически важных с точки зрения безопасности областях, однако существующие методы оценки часто зависят от конкретных атак и лишены интерпретируемости. Мы предлагаем обоснованный показатель устойчивости, не зависящий от атак, основанный на спектральной норме информационной матрицы Фишера (Fisher Information Matrix, FIM), который количественно оценивает наихудшую чувствительность распределения выходных данных модели к возмущениям входных данных. Теоретически мы устанавливаем, что FIM равна дисперсии якобиана по входным данным, и выводим замкнутые формы спектральных границ для распространенных архитектур, включая VGG, ResNet, DenseNet и Transformer, что дает первое теоретическое ранжирование устойчивости. Для обеспечения масштабируемой оценки мы разрабатываем эффективные алгоритмы, включающие степенной метод (power iteration) и оценку на основе метода Хатчинсона, которые поддерживают как настройки с белым ящиком (white-box), так и с черным ящиком (black-box). Обширные эксперименты на нескольких наборах данных, включая CIFAR, ImageNet и медицинские изображения, а также на нескольких архитектурах, показывают сильную корреляцию между нашим показателем и уязвимостью к состязательным атакам. Наш фреймворк служит интерпретируемым диагностическим инструментом, дополняющим оценки на основе атак, предоставляя понимание чувствительности архитектуры и направляя проектирование более устойчивых моделей. Код доступен по адресу: https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.