ChatPaper.aiChatPaper

LLaMA raccourci : une simplification de la profondeur par élagage pour les grands modèles de langage

Shortened LLaMA: A Simple Depth Pruning for Large Language Models

February 5, 2024
Auteurs: Bo-Kyeong Kim, Geonmin Kim, Tae-Ho Kim, Thibault Castells, Shinkook Choi, Junho Shin, Hyoung-Kyu Song
cs.AI

Résumé

L'élagage structuré des grands modèles de langage modernes (LLMs) est apparu comme une méthode pour réduire leurs besoins computationnels élevés. L'élagage en largeur diminue la taille des matrices de poids de projection (par exemple, en supprimant des têtes d'attention) tout en maintenant le nombre de couches. L'élagage en profondeur, en revanche, supprime des couches ou des blocs entiers, tout en conservant la taille des poids restants. La plupart des recherches actuelles se concentrent soit sur l'élagage en largeur uniquement, soit sur une combinaison d'élagage en largeur et en profondeur, avec peu d'analyses comparatives entre ces deux unités (largeur vs profondeur) concernant leur impact sur l'efficacité de l'inférence des LLMs. Dans ce travail, nous montrons qu'une approche simple d'élagage en profondeur peut rivaliser avec les méthodes récentes d'élagage en largeur en termes de performance sur des tâches en zero-shot. Notre méthode d'élagage améliore les vitesses d'inférence, en particulier dans des conditions de mémoire limitée qui nécessitent des tailles de lot réduites pour exécuter les LLMs, où l'élagage en largeur est inefficace. Nous espérons que ce travail pourra faciliter le déploiement des LLMs sur des appareils locaux et périphériques.
English
Structured pruning of modern large language models (LLMs) has emerged as a way of decreasing their high computational needs. Width pruning reduces the size of projection weight matrices (e.g., by removing attention heads) while maintaining the number of layers. Depth pruning, in contrast, removes entire layers or blocks, while keeping the size of the remaining weights unchanged. Most current research focuses on either width-only or a blend of width and depth pruning, with little comparative analysis between the two units (width vs. depth) concerning their impact on LLM inference efficiency. In this work, we show that a simple depth pruning approach can compete with recent width pruning methods in terms of zero-shot task performance. Our pruning method boosts inference speeds, especially under memory-constrained conditions that require limited batch sizes for running LLMs, where width pruning is ineffective. We hope this work can help deploy LLMs on local and edge devices.
PDF171December 15, 2024