SliceGPT: Comprima Modelos de Linguagem de Grande Escala Removendo Linhas e Colunas

Resumo

Modelos de linguagem de grande escala tornaram-se a base do processamento de linguagem natural, mas seu uso vem com custos substanciais em termos de recursos de computação e memória. A esparsificação oferece uma solução para aliviar essas restrições de recursos, e trabalhos recentes mostraram que modelos treinados podem ser esparsificados após o treinamento. As técnicas de esparsificação existentes enfrentam desafios, pois precisam de estruturas de dados adicionais e oferecem aceleração limitada com o hardware atual. Neste artigo, apresentamos o SliceGPT, um novo esquema de esparsificação pós-treinamento que substitui cada matriz de pesos por uma matriz menor (densa), reduzindo a dimensão de incorporação da rede. Por meio de experimentação extensiva, mostramos que o SliceGPT pode remover até 25% dos parâmetros do modelo (incluindo embeddings) para os modelos LLAMA2-70B, OPT 66B e Phi-2, mantendo 99%, 99% e 90% do desempenho em tarefas zero-shot do modelo denso, respectivamente. Nossos modelos fatiados rodam em menos GPUs e executam mais rapidamente sem qualquer otimização de código adicional: em GPUs de 24GB, reduzimos o total de computação para inferência no LLAMA2-70B para 64% do modelo denso; em GPUs A100 de 40GB, reduzimos para 66%. Oferecemos uma nova visão, a invariância computacional em redes de transformadores, que possibilita o SliceGPT e esperamos que inspire e habilite futuras abordagens para reduzir as demandas de memória e computação para modelos pré-treinados. O código está disponível em: https://github.com/microsoft/TransformerCompression

English

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

SliceGPT: Comprima Modelos de Linguagem de Grande Escala Removendo Linhas e Colunas

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Resumo

Support