ChatPaper.aiChatPaper

DOTResize:離散最適輸送に基づくニューロン統合によるLLM幅の削減

DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging

July 6, 2025
著者: Neha Verma, Kenton Murray, Kevin Duh
cs.AI

要旨

モデル圧縮は、大規模な事前学習モデルのコストとアクセス性の課題を解決する有望なアプローチであり、その優れた性能を大幅に損なうことなく実現可能です。大規模なTransformerモデル、特に大規模言語モデル(LLM)には、計算上の冗長性がしばしば見られ、これは新しいモデル圧縮手法のターゲットとなり得ます。本研究では、モデル層内のニューロンレベルの冗長性に着目し、類似したニューロンをグループ化して数を削減することを目指します。この幅の削減を離散最適輸送問題として定式化し、最適輸送理論を用いてモデルの重みを変換・圧縮する新しいTransformer圧縮手法「DOTResize」を提案します。Transformerアーキテクチャ内での適用性を確保するため、エントロピー正則化と行列分解を本手法が生成する輸送マップに組み込みます。重要度に基づいてニューロンを削除するプルーニングベースの手法とは異なり、DOTResizeはニューロンの幅全体を再投影し、削減された層内で有用な信号を保持・再分配することを可能にします。実験結果から、DOTResizeは単純な手法や最先端のニューロン幅プルーニング技術と比較して、複数のLLMファミリーやサイズにおいて優れた性能を発揮しつつ、現実世界での計算コストを測定可能なレベルで削減できることが示されています。
English
Model compression offers a promising path to reducing the cost and inaccessibility of large pre-trained models, without significantly compromising their impressive performance. Large Transformer models, including large language models (LLMs), often contain computational redundancy, which can serve as a target for new model compression methods. In this work, we specifically target neuron-level redundancies in model layers by combining groups of similar neurons into fewer neurons. We frame this width reduction as a Discrete Optimal Transport problem, and propose DOTResize, a novel Transformer compression method that uses optimal transport theory to transform and compress model weights. To ensure applicability within the Transformer architecture, we motivate and incorporate entropic regularization and matrix factorization into the transportation maps produced by our method. Unlike pruning-based approaches which discard neurons based on importance measures, DOTResize re-projects the entire neuron width, allowing the retention and redistribution of useful signal across the reduced layer. Empirical results show that compared to simple or state-of-the-art neuron width-pruning techniques, DOTResize can outperform these methods across multiple LLM families and sizes, while achieving measurable reductions in real-world computational cost.
PDF11July 14, 2025