LLaMA-NAS: Ricerca Efficiente di Architetture Neurali per Modelli Linguistici di Grande Dimensione

Abstract

Le capacità dei moderni modelli linguistici di grandi dimensioni (LLM) nel risolvere compiti di elaborazione del linguaggio naturale, ragionamento complesso, analisi del sentiment e altre attività sono state straordinarie, portando alla loro ampia adozione. Sfortunatamente, queste capacità comportano costi molto elevati in termini di memoria e computazione, che impediscono l'uso degli LLM sulla maggior parte delle piattaforme hardware. Per mitigare questo problema, proponiamo un metodo efficace per trovare architetture di rete Pareto-ottimali basate su LLaMA2-7B utilizzando il NAS one-shot. In particolare, ottimizziamo LLaMA2-7B una sola volta e poi applichiamo una ricerca basata su algoritmi genetici per trovare architetture di rete più piccole e meno complesse dal punto di vista computazionale. Dimostriamo che, per alcuni compiti di benchmark standard, la rete pre-addestrata LLaMA2-7B è inutilmente grande e complessa. Più specificamente, otteniamo una riduzione di 1,5 volte delle dimensioni del modello e un aumento di 1,3 volte della velocità di elaborazione per determinati compiti, con un calo trascurabile dell'accuratezza. Oltre a trovare architetture di rete più piccole e ad alte prestazioni, il nostro metodo lo fa in modo più efficace ed efficiente rispetto a certe tecniche di pruning o sparsificazione. Infine, dimostriamo come la quantizzazione sia complementare al nostro metodo e che le dimensioni e la complessità delle reti che troviamo possono essere ulteriormente ridotte utilizzando la quantizzazione. Crediamo che il nostro lavoro fornisca un modo per creare automaticamente LLM che possono essere utilizzati su piattaforme hardware meno costose e più facilmente disponibili.

English

The abilities of modern large language models (LLMs) in solving natural language processing, complex reasoning, sentiment analysis and other tasks have been extraordinary which has prompted their extensive adoption. Unfortunately, these abilities come with very high memory and computational costs which precludes the use of LLMs on most hardware platforms. To mitigate this, we propose an effective method of finding Pareto-optimal network architectures based on LLaMA2-7B using one-shot NAS. In particular, we fine-tune LLaMA2-7B only once and then apply genetic algorithm-based search to find smaller, less computationally complex network architectures. We show that, for certain standard benchmark tasks, the pre-trained LLaMA2-7B network is unnecessarily large and complex. More specifically, we demonstrate a 1.5x reduction in model size and 1.3x speedup in throughput for certain tasks with negligible drop in accuracy. In addition to finding smaller, higher-performing network architectures, our method does so more effectively and efficiently than certain pruning or sparsification techniques. Finally, we demonstrate how quantization is complementary to our method and that the size and complexity of the networks we find can be further decreased using quantization. We believe that our work provides a way to automatically create LLMs which can be used on less expensive and more readily available hardware platforms.

LLaMA-NAS: Ricerca Efficiente di Architetture Neurali per Modelli Linguistici di Grande Dimensione

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

Abstract

Support