GPTailor: Groot Taalmodel Snoeien via Laagverwijdering en Herverbinding
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
June 25, 2025
Auteurs: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben opmerkelijke capaciteiten getoond op het gebied van taalbegrip en -generatie. Echter gaat zo'n indrukwekkende capaciteit doorgaans gepaard met een aanzienlijke modelgrootte, wat aanzienlijke uitdagingen met zich meebrengt bij implementatie en inferentie. Hoewel gestructureerd snoeien van modelparameters een veelbelovende manier biedt om de rekenkosten tijdens implementatie te verminderen, richten huidige methoden zich voornamelijk op het snoeien van individuele modellen. In dit werk ontwikkelen we een nieuwe strategie om modellen te comprimeren door lagen van gefinetunede modelvarianten strategisch te combineren of samen te voegen, waarbij de oorspronkelijke capaciteiten van het model behouden blijven door de in verschillende finetunes benadrukte capaciteiten te aggregeren. We formuleren het optimaal aanpassen van deze LLMs als een nulde-orde optimalisatieprobleem, waarbij we een zoekruimte hanteren die drie verschillende operaties ondersteunt: (1) Laagverwijdering, (2) Laagselectie uit verschillende kandidaatmodellen, en (3) Laagsamenvoeging. Onze experimenten tonen aan dat deze aanpak leidt tot competitief modelsnoeien; voor de Llama2-13B-modelfamilies behouden onze gecomprimeerde modellen bijvoorbeeld ongeveer 97,3% van de oorspronkelijke prestaties terwijl ongeveer 25% van de parameters wordt verwijderd, wat aanzienlijk beter presteert dan eerdere state-of-the-art methoden. De code is beschikbaar op https://github.com/Guinan-Su/auto-merge-llm.
English
Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
deployment and inference. While structured pruning of model parameters offers a
promising way to reduce computational costs at deployment time, current methods
primarily focus on single model pruning. In this work, we develop a novel
strategy to compress models by strategically combining or merging layers from
finetuned model variants, which preserves the original model's abilities by
aggregating capabilities accentuated in different finetunes. We pose the
optimal tailoring of these LLMs as a zero-order optimization problem, adopting
a search space that supports three different operations: (1) Layer removal, (2)
Layer selection from different candidate models, and (3) Layer merging. Our
experiments demonstrate that this approach leads to competitive model pruning,
for example, for the Llama2-13B model families, our compressed models maintain
approximately 97.3\% of the original performance while removing sim25% of
parameters, significantly outperforming previous state-of-the-art methods. The
code is available at https://github.com/Guinan-Su/auto-merge-llm.