DOTResize: Redução da Largura de LLMs via Fusão de Neurônios Baseada em Transporte Ótimo Discreto
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
July 6, 2025
Autores: Neha Verma, Kenton Murray, Kevin Duh
cs.AI
Resumo
A compressão de modelos oferece um caminho promissor para reduzir o custo e a inacessibilidade de grandes modelos pré-treinados, sem comprometer significativamente seu desempenho impressionante. Grandes modelos Transformer, incluindo grandes modelos de linguagem (LLMs), frequentemente contêm redundâncias computacionais, que podem servir como alvo para novos métodos de compressão de modelos. Neste trabalho, especificamente visamos redundâncias em nível de neurônio nas camadas do modelo, combinando grupos de neurônios semelhantes em um número menor de neurônios. Enquadramos essa redução de largura como um problema de Transporte Ótimo Discreto e propomos o DOTResize, um novo método de compressão de Transformer que utiliza a teoria do transporte ótimo para transformar e comprimir os pesos do modelo. Para garantir a aplicabilidade dentro da arquitetura Transformer, motivamos e incorporamos regularização entrópica e fatoração de matriz nos mapas de transporte produzidos pelo nosso método. Diferente de abordagens baseadas em poda, que descartam neurônios com base em medidas de importância, o DOTResize reprojeta toda a largura dos neurônios, permitindo a retenção e redistribuição de sinais úteis na camada reduzida. Resultados empíricos mostram que, em comparação com técnicas simples ou de ponta de poda de largura de neurônios, o DOTResize pode superar esses métodos em várias famílias e tamanhos de LLMs, enquanto alcança reduções mensuráveis no custo computacional do mundo real.
English
Model compression offers a promising path to reducing the cost and
inaccessibility of large pre-trained models, without significantly compromising
their impressive performance. Large Transformer models, including large
language models (LLMs), often contain computational redundancy, which can serve
as a target for new model compression methods. In this work, we specifically
target neuron-level redundancies in model layers by combining groups of similar
neurons into fewer neurons. We frame this width reduction as a Discrete Optimal
Transport problem, and propose DOTResize, a novel Transformer compression
method that uses optimal transport theory to transform and compress model
weights. To ensure applicability within the Transformer architecture, we
motivate and incorporate entropic regularization and matrix factorization into
the transportation maps produced by our method. Unlike pruning-based approaches
which discard neurons based on importance measures, DOTResize re-projects the
entire neuron width, allowing the retention and redistribution of useful signal
across the reduced layer. Empirical results show that compared to simple or
state-of-the-art neuron width-pruning techniques, DOTResize can outperform
these methods across multiple LLM families and sizes, while achieving
measurable reductions in real-world computational cost.