Medindo a Robustez do Modelo via Informação de Fisher: Limites Espectrais, Garantias Teóricas e Algoritmos Práticos

Resumo

A robustez das redes neurais profundas é crucial para aplicações críticas de segurança, no entanto, os métodos de avaliação existentes são frequentemente dependentes de ataques e carecem de interpretabilidade. Propomos uma métrica de robustez fundamentada e independente de ataques, baseada na norma espectral da Matriz de Informação de Fisher (FIM), que quantifica a sensibilidade no pior caso da distribuição de saída do modelo a perturbações na entrada. Teoricamente, estabelecemos que a FIM é igual à variância do Jacobiano da entrada e derivamos limites espectrais de forma fechada para arquiteturas comuns, incluindo VGG, ResNet, DenseNet e Transformer, fornecendo o primeiro ranqueamento teórico de robustez. Para viabilizar uma avaliação escalável, desenvolvemos algoritmos eficientes, incluindo iteração de potência e estimativa baseada em Hutchinson, que suportam tanto configurações white-box quanto black-box. Extensos experimentos em múltiplos conjuntos de dados, incluindo CIFAR, ImageNet e imagens médicas, e em múltiplas arquiteturas mostram uma forte correlação entre nossa métrica e a vulnerabilidade adversarial. Nosso framework serve como uma ferramenta diagnóstica interpretável que complementa avaliações baseadas em ataques, oferecendo insights sobre a sensibilidade arquitetural e orientando o projeto de modelos mais robustos. O código está disponível em: https://github.com/franz-chang/SRP/.

English

The robustness of deep neural networks is crucial for safety-critical deployments, yet existing evaluation methods are often attack-dependent and lack interpretability. We propose a principled, attack-agnostic robustness metric based on the spectral norm of the Fisher Information Matrix (FIM), which quantifies the worst-case sensitivity of the model's output distribution to input perturbations. Theoretically, we establish that the FIM equals the variance of the input Jacobian and derive closed-form spectral bounds for common architectures, including VGG, ResNet, DenseNet, and Transformer, providing the first theoretical robustness ranking. To enable scalable evaluation, we develop efficient algorithms, including power iteration and Hutchinson-based estimation, that support both white-box and black-box settings. Extensive experiments across multiple datasets, including CIFAR, ImageNet, and medical images, and across multiple architectures show a strong correlation between our metric and adversarial vulnerability. Our framework serves as an interpretable diagnostic tool that complements attack-based evaluations, offering insights into architectural sensitivity and guiding the design of more robust models. Code is available at: https://github.com/franz-chang/SRP/.