ReplaceMe: Simplificación de Redes mediante Poda de Capas y Transformaciones Lineales
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations
May 5, 2025
Autores: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI
Resumen
Presentamos ReplaceMe, un método generalizado de poda en profundidad sin entrenamiento que reemplaza efectivamente los bloques de transformadores con una operación lineal, manteniendo un alto rendimiento para tasas de compresión bajas. A diferencia de los enfoques convencionales de poda que requieren entrenamiento adicional o ajuste fino, nuestro método necesita solo un pequeño conjunto de datos de calibración que se utiliza para estimar una transformación lineal que aproxime los bloques podados. Esta transformación lineal estimada puede integrarse sin problemas con los bloques restantes del transformador, eliminando la necesidad de parámetros adicionales en la red. Nuestros experimentos muestran que ReplaceMe supera consistentemente a otros enfoques sin entrenamiento y se mantiene altamente competitivo con los métodos de poda más avanzados que implican un extenso reentrenamiento/ajuste fino y modificaciones arquitectónicas. Aplicado a varios modelos de lenguaje grandes (LLMs), ReplaceMe logra hasta un 25% de poda mientras conserva aproximadamente el 90% del rendimiento original del modelo en benchmarks abiertos, sin necesidad de pasos de entrenamiento o recuperación, lo que resulta en un sobrecarga computacional mínima (ver Fig.1). Proporcionamos una biblioteca de código abierto que implementa ReplaceMe junto con varias técnicas de poda en profundidad de última generación, disponible en este repositorio.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that
effectively replaces transformer blocks with a linear operation, while
maintaining high performance for low compression ratios. In contrast to
conventional pruning approaches that require additional training or
fine-tuning, our approach requires only a small calibration dataset that is
used to estimate a linear transformation to approximate the pruned blocks. This
estimated linear mapping can be seamlessly merged with the remaining
transformer blocks, eliminating the need for any additional network parameters.
Our experiments show that ReplaceMe consistently outperforms other
training-free approaches and remains highly competitive with state-of-the-art
pruning methods that involve extensive retraining/fine-tuning and architectural
modifications. Applied to several large language models (LLMs), ReplaceMe
achieves up to 25% pruning while retaining approximately 90% of the original
model's performance on open benchmarks - without any training or healing steps,
resulting in minimal computational overhead (see Fig.1). We provide an
open-source library implementing ReplaceMe alongside several state-of-the-art
depth pruning techniques, available at this repository.Summary
AI-Generated Summary