GPTailor: Poda de Modelos de Linguagem de Grande Escala Através de Corte e Costura de Camadas
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
June 25, 2025
Autores: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em compreensão e geração de linguagem. No entanto, essa capacidade impressionante geralmente vem acompanhada de um tamanho substancial do modelo, o que apresenta desafios significativos na implantação e inferência. Embora o pruning estruturado de parâmetros do modelo ofereça uma maneira promissora de reduzir os custos computacionais no momento da implantação, os métodos atuais se concentram principalmente no pruning de um único modelo. Neste trabalho, desenvolvemos uma estratégia inovadora para comprimir modelos combinando ou mesclando estrategicamente camadas de variantes de modelos ajustados, o que preserva as habilidades do modelo original ao agregar capacidades destacadas em diferentes ajustes finos. Formulamos a otimização ideal desses LLMs como um problema de otimização de ordem zero, adotando um espaço de busca que suporta três operações diferentes: (1) Remoção de camadas, (2) Seleção de camadas de diferentes modelos candidatos e (3) Fusão de camadas. Nossos experimentos demonstram que essa abordagem resulta em um pruning competitivo de modelos. Por exemplo, para as famílias de modelos Llama2-13B, nossos modelos comprimidos mantêm aproximadamente 97,3% do desempenho original enquanto removem cerca de 25% dos parâmetros, superando significativamente os métodos state-of-the-art anteriores. O código está disponível em https://github.com/Guinan-Su/auto-merge-llm.
English
Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
deployment and inference. While structured pruning of model parameters offers a
promising way to reduce computational costs at deployment time, current methods
primarily focus on single model pruning. In this work, we develop a novel
strategy to compress models by strategically combining or merging layers from
finetuned model variants, which preserves the original model's abilities by
aggregating capabilities accentuated in different finetunes. We pose the
optimal tailoring of these LLMs as a zero-order optimization problem, adopting
a search space that supports three different operations: (1) Layer removal, (2)
Layer selection from different candidate models, and (3) Layer merging. Our
experiments demonstrate that this approach leads to competitive model pruning,
for example, for the Llama2-13B model families, our compressed models maintain
approximately 97.3\% of the original performance while removing sim25% of
parameters, significantly outperforming previous state-of-the-art methods. The
code is available at https://github.com/Guinan-Su/auto-merge-llm.