ChatPaper.aiChatPaper

Simplificação de Redes via Poda de Camadas e Transformações Lineares

ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

May 5, 2025
Autores: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI

Resumo

Apresentamos o ReplaceMe, um método generalizado de poda de profundidade sem treinamento que substitui efetivamente blocos de transformadores por uma operação linear, mantendo alto desempenho para baixas taxas de compressão. Em contraste com abordagens convencionais de poda que exigem treinamento adicional ou ajuste fino, nosso método requer apenas um pequeno conjunto de dados de calibração, utilizado para estimar uma transformação linear que aproxima os blocos podados. Esse mapeamento linear estimado pode ser integrado de forma contínua com os blocos de transformadores restantes, eliminando a necessidade de parâmetros adicionais na rede. Nossos experimentos mostram que o ReplaceMe supera consistentemente outras abordagens sem treinamento e mantém-se altamente competitivo em relação aos métodos de poda de última geração que envolvem retreinamento extensivo/ajuste fino e modificações arquiteturais. Aplicado a vários modelos de linguagem de grande escala (LLMs), o ReplaceMe alcança até 25% de poda enquanto retém aproximadamente 90% do desempenho original do modelo em benchmarks abertos — sem qualquer etapa de treinamento ou recuperação, resultando em sobrecarga computacional mínima (ver Fig.1). Disponibilizamos uma biblioteca de código aberto que implementa o ReplaceMe juntamente com várias técnicas de poda de profundidade de última geração, disponível neste repositório.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that effectively replaces transformer blocks with a linear operation, while maintaining high performance for low compression ratios. In contrast to conventional pruning approaches that require additional training or fine-tuning, our approach requires only a small calibration dataset that is used to estimate a linear transformation to approximate the pruned blocks. This estimated linear mapping can be seamlessly merged with the remaining transformer blocks, eliminating the need for any additional network parameters. Our experiments show that ReplaceMe consistently outperforms other training-free approaches and remains highly competitive with state-of-the-art pruning methods that involve extensive retraining/fine-tuning and architectural modifications. Applied to several large language models (LLMs), ReplaceMe achieves up to 25% pruning while retaining approximately 90% of the original model's performance on open benchmarks - without any training or healing steps, resulting in minimal computational overhead (see Fig.1). We provide an open-source library implementing ReplaceMe alongside several state-of-the-art depth pruning techniques, available at this repository.
PDF264May 6, 2025