GPTailor: Poda de Modelos de Lenguaje de Gran Escala Mediante Corte y Costura de Capas
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
June 25, 2025
Autores: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en la comprensión y generación de lenguaje. Sin embargo, esta impresionante capacidad suele venir acompañada de un tamaño de modelo sustancial, lo que presenta desafíos significativos en su implementación e inferencia. Si bien la poda estructurada de los parámetros del modelo ofrece una forma prometedora de reducir los costos computacionales durante la implementación, los métodos actuales se centran principalmente en la poda de un solo modelo. En este trabajo, desarrollamos una estrategia novedosa para comprimir modelos mediante la combinación o fusión estratégica de capas de variantes de modelos ajustados, lo que preserva las capacidades del modelo original al agregar habilidades destacadas en diferentes ajustes. Planteamos la optimización óptima de estos LLMs como un problema de optimización de orden cero, adoptando un espacio de búsqueda que admite tres operaciones diferentes: (1) Eliminación de capas, (2) Selección de capas de diferentes modelos candidatos, y (3) Fusión de capas. Nuestros experimentos demuestran que este enfoque conduce a una poda competitiva de modelos. Por ejemplo, para las familias de modelos Llama2-13B, nuestros modelos comprimidos mantienen aproximadamente el 97.3% del rendimiento original mientras eliminan alrededor del 25% de los parámetros, superando significativamente los métodos anteriores más avanzados. El código está disponible en https://github.com/Guinan-Su/auto-merge-llm.
English
Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
deployment and inference. While structured pruning of model parameters offers a
promising way to reduce computational costs at deployment time, current methods
primarily focus on single model pruning. In this work, we develop a novel
strategy to compress models by strategically combining or merging layers from
finetuned model variants, which preserves the original model's abilities by
aggregating capabilities accentuated in different finetunes. We pose the
optimal tailoring of these LLMs as a zero-order optimization problem, adopting
a search space that supports three different operations: (1) Layer removal, (2)
Layer selection from different candidate models, and (3) Layer merging. Our
experiments demonstrate that this approach leads to competitive model pruning,
for example, for the Llama2-13B model families, our compressed models maintain
approximately 97.3\% of the original performance while removing sim25% of
parameters, significantly outperforming previous state-of-the-art methods. The
code is available at https://github.com/Guinan-Su/auto-merge-llm.