ChatPaper.aiChatPaper

Apoptose Cérébrale Optimale

Optimal Brain Apoptosis

February 25, 2025
Auteurs: Mingyuan Sun, Zheng Fang, Jiaxu Wang, Junjie Jiang, Delei Kong, Chenming Hu, Yuetong Fang, Renjing Xu
cs.AI

Résumé

La complexité croissante et le nombre de paramètres des réseaux de neurones convolutifs (CNN) et des Transformers posent des défis en termes d'efficacité computationnelle et de demandes en ressources. L'élagage a été identifié comme une stratégie efficace pour relever ces défis en supprimant des éléments redondants tels que des neurones, des canaux ou des connexions, améliorant ainsi l'efficacité computationnelle sans compromettre significativement les performances. Ce document s'appuie sur les travaux fondateurs de l'Optimal Brain Damage (OBD) en faisant progresser la méthodologie d'estimation de l'importance des paramètres à l'aide de la matrice hessienne. Contrairement aux approches précédentes qui reposent sur des approximations, nous introduisons l'Optimal Brain Apoptosis (OBA), une nouvelle méthode d'élagage qui calcule directement la valeur du produit hessien-vecteur pour chaque paramètre. En décomposant la matrice hessienne à travers les couches du réseau et en identifiant les conditions sous lesquelles les sous-matrices hessiennes inter-couches sont non nulles, nous proposons une technique hautement efficace pour calculer le développement de Taylor du second ordre des paramètres. Cette approche permet un processus d'élagage plus précis, en particulier dans le contexte des CNN et des Transformers, comme validé dans nos expériences incluant VGG19, ResNet32, ResNet50 et ViT-B/16 sur les ensembles de données CIFAR10, CIFAR100 et Imagenet. Notre code est disponible à l'adresse https://github.com/NEU-REAL/OBA.
English
The increasing complexity and parameter count of Convolutional Neural Networks (CNNs) and Transformers pose challenges in terms of computational efficiency and resource demands. Pruning has been identified as an effective strategy to address these challenges by removing redundant elements such as neurons, channels, or connections, thereby enhancing computational efficiency without heavily compromising performance. This paper builds on the foundational work of Optimal Brain Damage (OBD) by advancing the methodology of parameter importance estimation using the Hessian matrix. Unlike previous approaches that rely on approximations, we introduce Optimal Brain Apoptosis (OBA), a novel pruning method that calculates the Hessian-vector product value directly for each parameter. By decomposing the Hessian matrix across network layers and identifying conditions under which inter-layer Hessian submatrices are non-zero, we propose a highly efficient technique for computing the second-order Taylor expansion of parameters. This approach allows for a more precise pruning process, particularly in the context of CNNs and Transformers, as validated in our experiments including VGG19, ResNet32, ResNet50, and ViT-B/16 on CIFAR10, CIFAR100 and Imagenet datasets. Our code is available at https://github.com/NEU-REAL/OBA.

Summary

AI-Generated Summary

PDF102March 3, 2025