DarwinLM: Poda Estructurada Evolutiva de Modelos de Lenguaje a Gran Escala
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Autores: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito significativo en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, sus enormes costos computacionales limitan su uso generalizado, especialmente en aplicaciones en tiempo real. La poda estructurada ofrece una solución efectiva al comprimir los modelos y proporcionar directamente mejoras de velocidad de extremo a extremo, independientemente del entorno de hardware. Mientras tanto, diferentes componentes del modelo muestran sensibilidades variables hacia la poda, lo que exige una compresión de modelo no uniforme. Sin embargo, un método de poda no solo debe identificar una subestructura capaz, sino también considerar el entrenamiento posterior a la compresión. Con este fin, proponemos \sysname, un método para la poda estructurada consciente del entrenamiento. \sysname se basa en un proceso de búsqueda evolutiva, generando múltiples modelos descendientes en cada generación mediante mutación y seleccionando los más aptos para sobrevivir. Para evaluar el efecto del entrenamiento posterior, incorporamos un proceso de entrenamiento ligero y de múltiples pasos dentro de la población de descendientes, aumentando progresivamente el número de tokens y eliminando los modelos con bajo rendimiento en cada etapa de selección. Validamos nuestro método mediante experimentos extensos en Llama-2-7B, Llama-3.1-8B y Qwen-2.5-14B-Instruct, logrando un rendimiento de vanguardia en la poda estructurada. Por ejemplo, \sysname supera a ShearedLlama mientras requiere 5 veces menos datos de entrenamiento durante el entrenamiento posterior a la compresión.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary