ReplaceMe: Упрощение сети посредством удаления слоев и линейных преобразований
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations
May 5, 2025
Авторы: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI
Аннотация
Мы представляем ReplaceMe, обобщённый метод обрезки глубины, не требующий обучения, который эффективно заменяет блоки трансформера линейной операцией, сохраняя при этом высокую производительность при низких коэффициентах сжатия. В отличие от традиционных подходов к обрезке, которые требуют дополнительного обучения или тонкой настройки, наш метод использует лишь небольшой калибровочный набор данных для оценки линейного преобразования, аппроксимирующего удалённые блоки. Это линейное отображение может быть легко интегрировано с оставшимися блоками трансформера, устраняя необходимость в дополнительных параметрах сети. Наши эксперименты показывают, что ReplaceMe стабильно превосходит другие подходы, не требующие обучения, и остаётся высококонкурентоспособным по сравнению с передовыми методами обрезки, которые предполагают масштабное переобучение/тонкую настройку и модификации архитектуры. Применённый к нескольким крупным языковым моделям (LLM), ReplaceMe достигает обрезки до 25%, сохраняя при этом около 90% производительности исходной модели на открытых бенчмарках — без какого-либо обучения или этапов восстановления, что приводит к минимальным вычислительным затратам (см. рис. 1). Мы предоставляем открытую библиотеку, реализующую ReplaceMe вместе с несколькими передовыми методами обрезки глубины, доступную в этом репозитории.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that
effectively replaces transformer blocks with a linear operation, while
maintaining high performance for low compression ratios. In contrast to
conventional pruning approaches that require additional training or
fine-tuning, our approach requires only a small calibration dataset that is
used to estimate a linear transformation to approximate the pruned blocks. This
estimated linear mapping can be seamlessly merged with the remaining
transformer blocks, eliminating the need for any additional network parameters.
Our experiments show that ReplaceMe consistently outperforms other
training-free approaches and remains highly competitive with state-of-the-art
pruning methods that involve extensive retraining/fine-tuning and architectural
modifications. Applied to several large language models (LLMs), ReplaceMe
achieves up to 25% pruning while retaining approximately 90% of the original
model's performance on open benchmarks - without any training or healing steps,
resulting in minimal computational overhead (see Fig.1). We provide an
open-source library implementing ReplaceMe alongside several state-of-the-art
depth pruning techniques, available at this repository.Summary
AI-Generated Summary