LLaMA-NAS: Efficiënte Neurale Architectuurzoektocht voor Grote Taalmodellen

Samenvatting

De mogelijkheden van moderne grote taalmodellen (LLMs) bij het oplossen van taken zoals natuurlijke taalverwerking, complex redeneren, sentimentanalyse en andere taken zijn buitengewoon, wat heeft geleid tot hun uitgebreide adoptie. Helaas gaan deze mogelijkheden gepaard met zeer hoge geheugen- en rekenkosten, wat het gebruik van LLMs op de meeste hardwareplatforms verhindert. Om dit te verlichten, stellen we een effectieve methode voor om Pareto-optimale netwerkarchitecturen te vinden op basis van LLaMA2-7B met behulp van one-shot NAS. In het bijzonder fine-tunen we LLaMA2-7B slechts één keer en passen vervolgens een genetisch algoritme-gebaseerde zoektocht toe om kleinere, minder rekenintensieve netwerkarchitecturen te vinden. We laten zien dat, voor bepaalde standaard benchmarktaken, het vooraf getrainde LLaMA2-7B-netwerk onnodig groot en complex is. Meer specifiek demonstreren we een 1,5x reductie in modelgrootte en een 1,3x versnelling in doorvoersnelheid voor bepaalde taken met een verwaarloosbaar verlies in nauwkeurigheid. Naast het vinden van kleinere, beter presterende netwerkarchitecturen, doet onze methode dit effectiever en efficiënter dan bepaalde pruning- of sparsificatietechnieken. Tot slot laten we zien hoe kwantisering complementair is aan onze methode en dat de grootte en complexiteit van de netwerken die we vinden verder kunnen worden verminderd met behulp van kwantisering. Wij geloven dat ons werk een manier biedt om automatisch LLMs te creëren die kunnen worden gebruikt op goedkopere en meer beschikbare hardwareplatforms.

English

The abilities of modern large language models (LLMs) in solving natural language processing, complex reasoning, sentiment analysis and other tasks have been extraordinary which has prompted their extensive adoption. Unfortunately, these abilities come with very high memory and computational costs which precludes the use of LLMs on most hardware platforms. To mitigate this, we propose an effective method of finding Pareto-optimal network architectures based on LLaMA2-7B using one-shot NAS. In particular, we fine-tune LLaMA2-7B only once and then apply genetic algorithm-based search to find smaller, less computationally complex network architectures. We show that, for certain standard benchmark tasks, the pre-trained LLaMA2-7B network is unnecessarily large and complex. More specifically, we demonstrate a 1.5x reduction in model size and 1.3x speedup in throughput for certain tasks with negligible drop in accuracy. In addition to finding smaller, higher-performing network architectures, our method does so more effectively and efficiently than certain pruning or sparsification techniques. Finally, we demonstrate how quantization is complementary to our method and that the size and complexity of the networks we find can be further decreased using quantization. We believe that our work provides a way to automatically create LLMs which can be used on less expensive and more readily available hardware platforms.

LLaMA-NAS: Efficiënte Neurale Architectuurzoektocht voor Grote Taalmodellen

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

Samenvatting

Support