DOTResize: Vermindering van LLM-breedte via Discrete Optimal Transport-gebaseerde Neuronfusie
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
July 6, 2025
Auteurs: Neha Verma, Kenton Murray, Kevin Duh
cs.AI
Samenvatting
Modelcompressie biedt een veelbelovende weg om de kosten en ontoegankelijkheid van grote vooraf getrainde modellen te verminderen, zonder hun indrukwekkende prestaties significant aan te tasten. Grote Transformer-modellen, waaronder grote taalmmodellen (LLM's), bevatten vaak computationele redundantie, wat een doelwit kan vormen voor nieuwe modelcompressiemethoden. In dit werk richten we ons specifiek op neuronale redundanties in modellagen door groepen vergelijkbare neuronen samen te voegen tot minder neuronen. We formuleren deze breedtereductie als een Discrete Optimal Transport-probleem en stellen DOTResize voor, een nieuwe Transformer-compressiemethode die optimal transport-theorie gebruikt om modelgewichten te transformeren en te comprimeren. Om de toepasbaarheid binnen de Transformer-architectuur te waarborgen, integreren we entropische regularisatie en matrixfactorisatie in de transportkaarten die door onze methode worden geproduceerd. In tegenstelling tot pruning-gebaseerde benaderingen die neuronen verwijderen op basis van belangrijkheidsmetingen, herprojecteert DOTResize de volledige neuronbreedte, waardoor het behoud en de herverdeling van nuttige signalen over de gereduceerde laag mogelijk wordt. Empirische resultaten tonen aan dat DOTResize, vergeleken met eenvoudige of state-of-the-art neuronbreedte-pruningtechnieken, deze methoden kan overtreffen over meerdere LLM-families en -groottes, terwijl het meetbare reducties in rekenkosten in de praktijk bereikt.
English
Model compression offers a promising path to reducing the cost and
inaccessibility of large pre-trained models, without significantly compromising
their impressive performance. Large Transformer models, including large
language models (LLMs), often contain computational redundancy, which can serve
as a target for new model compression methods. In this work, we specifically
target neuron-level redundancies in model layers by combining groups of similar
neurons into fewer neurons. We frame this width reduction as a Discrete Optimal
Transport problem, and propose DOTResize, a novel Transformer compression
method that uses optimal transport theory to transform and compress model
weights. To ensure applicability within the Transformer architecture, we
motivate and incorporate entropic regularization and matrix factorization into
the transportation maps produced by our method. Unlike pruning-based approaches
which discard neurons based on importance measures, DOTResize re-projects the
entire neuron width, allowing the retention and redistribution of useful signal
across the reduced layer. Empirical results show that compared to simple or
state-of-the-art neuron width-pruning techniques, DOTResize can outperform
these methods across multiple LLM families and sizes, while achieving
measurable reductions in real-world computational cost.