GPTailor: Beschneiden großer Sprachmodelle durch Schichtentfernung und -verknüpfung

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Verständnis und der Generierung von Sprache gezeigt. Diese beeindruckende Leistung geht jedoch typischerweise mit einer erheblichen Modellgröße einher, was erhebliche Herausforderungen bei der Bereitstellung und Inferenz mit sich bringt. Während das strukturierte Pruning von Modellparametern einen vielversprechenden Ansatz bietet, um die Rechenkosten bei der Bereitstellung zu reduzieren, konzentrieren sich aktuelle Methoden hauptsächlich auf das Pruning einzelner Modelle. In dieser Arbeit entwickeln wir eine neuartige Strategie zur Komprimierung von Modellen, indem wir Schichten aus feinabgestimmten Modellvarianten strategisch kombinieren oder zusammenführen. Dadurch werden die Fähigkeiten des ursprünglichen Modells bewahrt, indem die in verschiedenen Feinabstimmungen hervorgehobenen Fähigkeiten aggregiert werden. Wir formulieren die optimale Anpassung dieser LLMs als ein Optimierungsproblem nullter Ordnung und verwenden einen Suchraum, der drei verschiedene Operationen unterstützt: (1) Entfernen von Schichten, (2) Auswahl von Schichten aus verschiedenen Kandidatenmodellen und (3) Zusammenführen von Schichten. Unsere Experimente zeigen, dass dieser Ansatz zu einem wettbewerbsfähigen Modell-Pruning führt. Beispielsweise behalten unsere komprimierten Modelle der Llama2-13B-Modellfamilie etwa 97,3 % der ursprünglichen Leistung bei, während sie gleichzeitig ca. 25 % der Parameter entfernen, was frühere state-of-the-art Methoden deutlich übertrifft. Der Code ist unter https://github.com/Guinan-Su/auto-merge-llm verfügbar.

English

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in deployment and inference. While structured pruning of model parameters offers a promising way to reduce computational costs at deployment time, current methods primarily focus on single model pruning. In this work, we develop a novel strategy to compress models by strategically combining or merging layers from finetuned model variants, which preserves the original model's abilities by aggregating capabilities accentuated in different finetunes. We pose the optimal tailoring of these LLMs as a zero-order optimization problem, adopting a search space that supports three different operations: (1) Layer removal, (2) Layer selection from different candidate models, and (3) Layer merging. Our experiments demonstrate that this approach leads to competitive model pruning, for example, for the Llama2-13B model families, our compressed models maintain approximately 97.3\% of the original performance while removing sim25% of parameters, significantly outperforming previous state-of-the-art methods. The code is available at https://github.com/Guinan-Su/auto-merge-llm.

GPTailor: Beschneiden großer Sprachmodelle durch Schichtentfernung und -verknüpfung

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

papers.abstract

Support