DOTResize: 이산 최적 수송 기반 뉴런 병합을 통한 LLM 폭 감소
DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging
July 6, 2025
저자: Neha Verma, Kenton Murray, Kevin Duh
cs.AI
초록
모델 압축은 대규모 사전 학습 모델의 비용과 접근성 문제를 해결할 수 있는 유망한 방법으로, 이러한 모델의 인상적인 성능을 크게 저하시키지 않으면서도 이를 달성할 수 있다. 대형 트랜스포머 모델, 특히 대형 언어 모델(LLMs)은 종종 계산적 중복성을 포함하고 있으며, 이는 새로운 모델 압축 기법의 대상이 될 수 있다. 본 연구에서는 모델 레이어 내의 뉴런 수준 중복성을 대상으로 하여, 유사한 뉴런 그룹을 더 적은 수의 뉴런으로 결합하는 방법을 제안한다. 이러한 폭 감소를 이산 최적 수송 문제로 설정하고, 최적 수송 이론을 활용하여 모델 가중치를 변환하고 압축하는 새로운 트랜스포머 압축 기법인 DOTResize를 제안한다. 트랜스포머 아키텍처 내에서의 적용 가능성을 보장하기 위해, 엔트로피 정규화와 행렬 분해를 본 방법에서 생성된 수송 맵에 통합하였다. 중요도 측정을 기반으로 뉴런을 제거하는 가지치기 기반 접근법과 달리, DOTResize는 전체 뉴런 폭을 재투영하여 축소된 레이어에서 유용한 신호를 유지하고 재분배할 수 있도록 한다. 실험 결과는 단순하거나 최신의 뉴런 폭 가지치기 기법과 비교하여, DOTResize가 다양한 LLM 계열과 크기에서 이러한 방법들을 능가할 수 있으며, 실제 계산 비용에서도 측정 가능한 감소를 달성할 수 있음을 보여준다.
English
Model compression offers a promising path to reducing the cost and
inaccessibility of large pre-trained models, without significantly compromising
their impressive performance. Large Transformer models, including large
language models (LLMs), often contain computational redundancy, which can serve
as a target for new model compression methods. In this work, we specifically
target neuron-level redundancies in model layers by combining groups of similar
neurons into fewer neurons. We frame this width reduction as a Discrete Optimal
Transport problem, and propose DOTResize, a novel Transformer compression
method that uses optimal transport theory to transform and compress model
weights. To ensure applicability within the Transformer architecture, we
motivate and incorporate entropic regularization and matrix factorization into
the transportation maps produced by our method. Unlike pruning-based approaches
which discard neurons based on importance measures, DOTResize re-projects the
entire neuron width, allowing the retention and redistribution of useful signal
across the reduced layer. Empirical results show that compared to simple or
state-of-the-art neuron width-pruning techniques, DOTResize can outperform
these methods across multiple LLM families and sizes, while achieving
measurable reductions in real-world computational cost.