Medición de la robustez de modelos mediante la información de Fisher: límites espectrales, garantías teóricas y algoritmos prácticos

Resumen

La robustez de las redes neuronales profundas es crucial para despliegues críticos en seguridad, sin embargo, los métodos de evaluación existentes suelen depender del ataque y carecer de interpretabilidad. Proponemos una métrica de robustez basada en principios, independiente del ataque, fundamentada en la norma espectral de la Matriz de Información de Fisher (MIF), que cuantifica la sensibilidad en el peor caso de la distribución de salida del modelo ante perturbaciones en la entrada. Teóricamente, establecemos que la MIF equivale a la varianza del jacobiano de entrada y derivamos cotas espectrales en forma cerrada para arquitecturas comunes, incluyendo VGG, ResNet, DenseNet y Transformer, proporcionando la primera clasificación teórica de robustez. Para permitir una evaluación escalable, desarrollamos algoritmos eficientes, incluyendo el método de iteración de potencia y la estimación basada en Hutchinson, que admiten configuraciones tanto de caja blanca como de caja negra. Experimentos exhaustivos en múltiples conjuntos de datos, incluyendo CIFAR, ImageNet e imágenes médicas, y en diversas arquitecturas, muestran una fuerte correlación entre nuestra métrica y la vulnerabilidad adversarial. Nuestro marco sirve como una herramienta diagnóstica interpretable que complementa las evaluaciones basadas en ataques, ofreciendo información sobre la sensibilidad arquitectónica y guiando el diseño de modelos más robustos. El código está disponible en: https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.