DOTResize: Vermindering van LLM-breedte via Discrete Optimal Transport-gebaseerde Neuronfusie

Samenvatting

Modelcompressie biedt een veelbelovende weg om de kosten en ontoegankelijkheid van grote vooraf getrainde modellen te verminderen, zonder hun indrukwekkende prestaties significant aan te tasten. Grote Transformer-modellen, waaronder grote taalmmodellen (LLM's), bevatten vaak computationele redundantie, wat een doelwit kan vormen voor nieuwe modelcompressiemethoden. In dit werk richten we ons specifiek op neuronale redundanties in modellagen door groepen vergelijkbare neuronen samen te voegen tot minder neuronen. We formuleren deze breedtereductie als een Discrete Optimal Transport-probleem en stellen DOTResize voor, een nieuwe Transformer-compressiemethode die optimal transport-theorie gebruikt om modelgewichten te transformeren en te comprimeren. Om de toepasbaarheid binnen de Transformer-architectuur te waarborgen, integreren we entropische regularisatie en matrixfactorisatie in de transportkaarten die door onze methode worden geproduceerd. In tegenstelling tot pruning-gebaseerde benaderingen die neuronen verwijderen op basis van belangrijkheidsmetingen, herprojecteert DOTResize de volledige neuronbreedte, waardoor het behoud en de herverdeling van nuttige signalen over de gereduceerde laag mogelijk wordt. Empirische resultaten tonen aan dat DOTResize, vergeleken met eenvoudige of state-of-the-art neuronbreedte-pruningtechnieken, deze methoden kan overtreffen over meerdere LLM-families en -groottes, terwijl het meetbare reducties in rekenkosten in de praktijk bereikt.

English

Model compression offers a promising path to reducing the cost and inaccessibility of large pre-trained models, without significantly compromising their impressive performance. Large Transformer models, including large language models (LLMs), often contain computational redundancy, which can serve as a target for new model compression methods. In this work, we specifically target neuron-level redundancies in model layers by combining groups of similar neurons into fewer neurons. We frame this width reduction as a Discrete Optimal Transport problem, and propose DOTResize, a novel Transformer compression method that uses optimal transport theory to transform and compress model weights. To ensure applicability within the Transformer architecture, we motivate and incorporate entropic regularization and matrix factorization into the transportation maps produced by our method. Unlike pruning-based approaches which discard neurons based on importance measures, DOTResize re-projects the entire neuron width, allowing the retention and redistribution of useful signal across the reduced layer. Empirical results show that compared to simple or state-of-the-art neuron width-pruning techniques, DOTResize can outperform these methods across multiple LLM families and sizes, while achieving measurable reductions in real-world computational cost.

DOTResize: Vermindering van LLM-breedte via Discrete Optimal Transport-gebaseerde Neuronfusie

DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging

Samenvatting

Support