DOTResize: Reducción del ancho de LLM mediante fusión de neuronas basada en transporte óptimo discreto
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
July 6, 2025
Autores: Neha Verma, Kenton Murray, Kevin Duh
cs.AI
Resumen
La compresión de modelos ofrece una vía prometedora para reducir el costo y la inaccesibilidad de los modelos preentrenados de gran tamaño, sin comprometer significativamente su impresionante rendimiento. Los grandes modelos Transformer, incluidos los modelos de lenguaje extensos (LLMs, por sus siglas en inglés), suelen contener redundancias computacionales, las cuales pueden ser un objetivo para nuevos métodos de compresión de modelos. En este trabajo, nos enfocamos específicamente en las redundancias a nivel de neuronas en las capas del modelo, combinando grupos de neuronas similares en un menor número de neuronas. Enmarcamos esta reducción de ancho como un problema de Transporte Óptimo Discreto y proponemos DOTResize, un novedoso método de compresión de Transformers que utiliza la teoría del transporte óptimo para transformar y comprimir los pesos del modelo. Para garantizar la aplicabilidad dentro de la arquitectura Transformer, integramos y justificamos la regularización entrópica y la factorización de matrices en los mapas de transporte generados por nuestro método. A diferencia de los enfoques basados en poda, que descartan neuronas según medidas de importancia, DOTResize reproyecta todo el ancho de las neuronas, permitiendo la retención y redistribución de señales útiles a través de la capa reducida. Los resultados empíricos muestran que, en comparación con técnicas simples o de vanguardia de poda de ancho de neuronas, DOTResize puede superar estos métodos en múltiples familias y tamaños de LLMs, logrando reducciones medibles en el costo computacional en escenarios reales.
English
Model compression offers a promising path to reducing the cost and
inaccessibility of large pre-trained models, without significantly compromising
their impressive performance. Large Transformer models, including large
language models (LLMs), often contain computational redundancy, which can serve
as a target for new model compression methods. In this work, we specifically
target neuron-level redundancies in model layers by combining groups of similar
neurons into fewer neurons. We frame this width reduction as a Discrete Optimal
Transport problem, and propose DOTResize, a novel Transformer compression
method that uses optimal transport theory to transform and compress model
weights. To ensure applicability within the Transformer architecture, we
motivate and incorporate entropic regularization and matrix factorization into
the transportation maps produced by our method. Unlike pruning-based approaches
which discard neurons based on importance measures, DOTResize re-projects the
entire neuron width, allowing the retention and redistribution of useful signal
across the reduced layer. Empirical results show that compared to simple or
state-of-the-art neuron width-pruning techniques, DOTResize can outperform
these methods across multiple LLM families and sizes, while achieving
measurable reductions in real-world computational cost.