LLaMA-NAS: Efficiënte Neurale Architectuurzoektocht voor Grote Taalmodellen
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models
May 28, 2024
Auteurs: Anthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan
cs.AI
Samenvatting
De mogelijkheden van moderne grote taalmodellen (LLMs) bij het oplossen van taken zoals natuurlijke taalverwerking, complex redeneren, sentimentanalyse en andere taken zijn buitengewoon, wat heeft geleid tot hun uitgebreide adoptie. Helaas gaan deze mogelijkheden gepaard met zeer hoge geheugen- en rekenkosten, wat het gebruik van LLMs op de meeste hardwareplatforms verhindert. Om dit te verlichten, stellen we een effectieve methode voor om Pareto-optimale netwerkarchitecturen te vinden op basis van LLaMA2-7B met behulp van one-shot NAS. In het bijzonder fine-tunen we LLaMA2-7B slechts één keer en passen vervolgens een genetisch algoritme-gebaseerde zoektocht toe om kleinere, minder rekenintensieve netwerkarchitecturen te vinden. We laten zien dat, voor bepaalde standaard benchmarktaken, het vooraf getrainde LLaMA2-7B-netwerk onnodig groot en complex is. Meer specifiek demonstreren we een 1,5x reductie in modelgrootte en een 1,3x versnelling in doorvoersnelheid voor bepaalde taken met een verwaarloosbaar verlies in nauwkeurigheid. Naast het vinden van kleinere, beter presterende netwerkarchitecturen, doet onze methode dit effectiever en efficiënter dan bepaalde pruning- of sparsificatietechnieken. Tot slot laten we zien hoe kwantisering complementair is aan onze methode en dat de grootte en complexiteit van de netwerken die we vinden verder kunnen worden verminderd met behulp van kwantisering. Wij geloven dat ons werk een manier biedt om automatisch LLMs te creëren die kunnen worden gebruikt op goedkopere en meer beschikbare hardwareplatforms.
English
The abilities of modern large language models (LLMs) in solving natural
language processing, complex reasoning, sentiment analysis and other tasks have
been extraordinary which has prompted their extensive adoption. Unfortunately,
these abilities come with very high memory and computational costs which
precludes the use of LLMs on most hardware platforms. To mitigate this, we
propose an effective method of finding Pareto-optimal network architectures
based on LLaMA2-7B using one-shot NAS. In particular, we fine-tune LLaMA2-7B
only once and then apply genetic algorithm-based search to find smaller, less
computationally complex network architectures. We show that, for certain
standard benchmark tasks, the pre-trained LLaMA2-7B network is unnecessarily
large and complex. More specifically, we demonstrate a 1.5x reduction in model
size and 1.3x speedup in throughput for certain tasks with negligible drop in
accuracy. In addition to finding smaller, higher-performing network
architectures, our method does so more effectively and efficiently than certain
pruning or sparsification techniques. Finally, we demonstrate how quantization
is complementary to our method and that the size and complexity of the networks
we find can be further decreased using quantization. We believe that our work
provides a way to automatically create LLMs which can be used on less expensive
and more readily available hardware platforms.