Apoptose Cérébrale Optimale
Optimal Brain Apoptosis
February 25, 2025
Auteurs: Mingyuan Sun, Zheng Fang, Jiaxu Wang, Junjie Jiang, Delei Kong, Chenming Hu, Yuetong Fang, Renjing Xu
cs.AI
Résumé
La complexité croissante et le nombre de paramètres des réseaux de neurones convolutifs (CNN) et des Transformers posent des défis en termes d'efficacité computationnelle et de demandes en ressources. L'élagage a été identifié comme une stratégie efficace pour relever ces défis en supprimant des éléments redondants tels que des neurones, des canaux ou des connexions, améliorant ainsi l'efficacité computationnelle sans compromettre significativement les performances. Ce document s'appuie sur les travaux fondateurs de l'Optimal Brain Damage (OBD) en faisant progresser la méthodologie d'estimation de l'importance des paramètres à l'aide de la matrice hessienne. Contrairement aux approches précédentes qui reposent sur des approximations, nous introduisons l'Optimal Brain Apoptosis (OBA), une nouvelle méthode d'élagage qui calcule directement la valeur du produit hessien-vecteur pour chaque paramètre. En décomposant la matrice hessienne à travers les couches du réseau et en identifiant les conditions sous lesquelles les sous-matrices hessiennes inter-couches sont non nulles, nous proposons une technique hautement efficace pour calculer le développement de Taylor du second ordre des paramètres. Cette approche permet un processus d'élagage plus précis, en particulier dans le contexte des CNN et des Transformers, comme validé dans nos expériences incluant VGG19, ResNet32, ResNet50 et ViT-B/16 sur les ensembles de données CIFAR10, CIFAR100 et Imagenet. Notre code est disponible à l'adresse https://github.com/NEU-REAL/OBA.
English
The increasing complexity and parameter count of Convolutional Neural
Networks (CNNs) and Transformers pose challenges in terms of computational
efficiency and resource demands. Pruning has been identified as an effective
strategy to address these challenges by removing redundant elements such as
neurons, channels, or connections, thereby enhancing computational efficiency
without heavily compromising performance. This paper builds on the foundational
work of Optimal Brain Damage (OBD) by advancing the methodology of parameter
importance estimation using the Hessian matrix. Unlike previous approaches that
rely on approximations, we introduce Optimal Brain Apoptosis (OBA), a novel
pruning method that calculates the Hessian-vector product value directly for
each parameter. By decomposing the Hessian matrix across network layers and
identifying conditions under which inter-layer Hessian submatrices are
non-zero, we propose a highly efficient technique for computing the
second-order Taylor expansion of parameters. This approach allows for a more
precise pruning process, particularly in the context of CNNs and Transformers,
as validated in our experiments including VGG19, ResNet32, ResNet50, and
ViT-B/16 on CIFAR10, CIFAR100 and Imagenet datasets. Our code is available at
https://github.com/NEU-REAL/OBA.Summary
AI-Generated Summary