GPTailor: Potatura di Modelli Linguistici di Grande Scala Attraverso Taglio e Cucitura degli Strati
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
June 25, 2025
Autori: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie nella comprensione e generazione del linguaggio. Tuttavia, tale impressionante capacità è tipicamente associata a una dimensione sostanziale del modello, che presenta sfide significative nel deployment e nell'inferenza. Sebbene il pruning strutturato dei parametri del modello offra una promettente via per ridurre i costi computazionali al momento del deployment, i metodi attuali si concentrano principalmente sul pruning di singoli modelli. In questo lavoro, sviluppiamo una nuova strategia per comprimere i modelli combinando o fondendo strategicamente strati da varianti di modelli fine-tuned, preservando così le capacità del modello originale aggregando le competenze accentuate nei diversi fine-tune. Formuliamo l'ottimizzazione di questi LLM come un problema di ottimizzazione di ordine zero, adottando uno spazio di ricerca che supporta tre diverse operazioni: (1) Rimozione di strati, (2) Selezione di strati da diversi modelli candidati, e (3) Fusione di strati. I nostri esperimenti dimostrano che questo approccio porta a un pruning competitivo del modello; ad esempio, per le famiglie di modelli Llama2-13B, i nostri modelli compressi mantengono circa il 97,3% delle prestazioni originali rimuovendo circa il 25% dei parametri, superando significativamente i precedenti metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/Guinan-Su/auto-merge-llm.
English
Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
deployment and inference. While structured pruning of model parameters offers a
promising way to reduce computational costs at deployment time, current methods
primarily focus on single model pruning. In this work, we develop a novel
strategy to compress models by strategically combining or merging layers from
finetuned model variants, which preserves the original model's abilities by
aggregating capabilities accentuated in different finetunes. We pose the
optimal tailoring of these LLMs as a zero-order optimization problem, adopting
a search space that supports three different operations: (1) Layer removal, (2)
Layer selection from different candidate models, and (3) Layer merging. Our
experiments demonstrate that this approach leads to competitive model pruning,
for example, for the Llama2-13B model families, our compressed models maintain
approximately 97.3\% of the original performance while removing sim25% of
parameters, significantly outperforming previous state-of-the-art methods. The
code is available at https://github.com/Guinan-Su/auto-merge-llm.