SEAP: Poda de Activación de Expertos Escasos sin Entrenamiento para Liberar el Potencial Intelectual de los Modelos de Lenguaje a Gran Escala
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models
March 10, 2025
Autores: Xun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala han logrado un éxito notable en diversas tareas de procesamiento de lenguaje natural, aunque su alto costo computacional durante la inferencia sigue siendo un cuello de botella importante. Este artículo presenta Sparse Expert Activation Pruning (SEAP), un método de poda que no requiere entrenamiento y que retiene selectivamente los parámetros relevantes para la tarea, reduciendo así la sobrecarga de inferencia. Inspirado por los patrones de agrupamiento de los estados ocultos y las activaciones en los modelos de lenguaje, SEAP identifica patrones de activación específicos de la tarea y poda el modelo mientras preserva el rendimiento de la tarea y mejora la eficiencia computacional. Los resultados experimentales demuestran que SEAP reduce significativamente la sobrecarga computacional manteniendo una precisión competitiva. En particular, con un 50% de poda, SEAP supera tanto a WandA como a FLAP en más de un 20%, y con un 20% de poda, incurre en solo una caída del 2.2% en el rendimiento en comparación con el modelo denso. Estos hallazgos resaltan la escalabilidad y efectividad de SEAP, convirtiéndolo en un enfoque prometedor para optimizar modelos de lenguaje a gran escala.
English
Large Language Models have achieved remarkable success across various natural
language processing tasks, yet their high computational cost during inference
remains a major bottleneck. This paper introduces Sparse Expert Activation
Pruning (SEAP), a training-free pruning method that selectively retains
task-relevant parameters to reduce inference overhead. Inspired by the
clustering patterns of hidden states and activations in LLMs, SEAP identifies
task-specific expert activation patterns and prunes the model while preserving
task performance and enhancing computational efficiency. Experimental results
demonstrate that SEAP significantly reduces computational overhead while
maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both
WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2%
performance drop compared to the dense model. These findings highlight SEAP's
scalability and effectiveness, making it a promising approach for optimizing
large-scale LLMs.