BitStack: 可変メモリ環境における圧縮された大規模言語モデルの細かいサイズ制御
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments
October 31, 2024
著者: Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu
cs.AI
要旨
大規模言語モデル(LLMs)は多くのアプリケーションを革新しましたが、ローカルデバイスのメモリ制約によって展開が依然として難しい状況です。スケーリング則がLLMの機能を向上させましたが、主要なボトルネックは能力から利用可能性に移行し、効率的なメモリ管理の必要性が強調されています。従来の圧縮手法(例:量子化)は、通常、事前に定義された圧縮比と各設定ごとに別々の圧縮プロセスが必要とされるため、可変メモリ環境での展開が複雑化されます。本論文では、メガバイトレベルのメモリ使用量とモデルのパフォーマンスとのトレードオフを実現する、新しいトレーニング不要の重み圧縮手法であるBitStackを紹介します。重み分解を活用することで、BitStackは実行中のメモリとストレージデバイス間の最小限の転送でモデルサイズを動的に調整することができます。当手法は、各パラメータの重要性を考慮しながら、重み行列を反復的に分解し、各分解イテレーションでおおよそ1ビットあたりのパラメータ残差ブロックを生成します。これらのブロックは、基本的な転送単位としてストレージにソートされ、積み重ねられ、現在のメモリの利用可能性に基づいて異なる量がロードされます。幅広いタスクにわたる実験により、BitStackは、細かいサイズ制御を提供しながら、特に極端な圧縮比において、強力な量子化のベースラインに一致するかそれを上回ることが一貫して示されました。私たちの知る限り、これは、量子化などの実用的な圧縮技術へのギャップを効果的に埋める、分解ベースの手法として初めてのものです。コードはhttps://github.com/xinghaow99/BitStack で入手可能です。
English
Large language models (LLMs) have revolutionized numerous applications, yet
their deployment remains challenged by memory constraints on local devices.
While scaling laws have enhanced LLM capabilities, the primary bottleneck has
shifted from capability to availability, emphasizing the need
for efficient memory management. Traditional compression methods, such as
quantization, often require predefined compression ratios and separate
compression processes for each setting, complicating deployment in variable
memory environments. In this paper, we introduce BitStack, a novel,
training-free weight compression approach that enables megabyte-level
trade-offs between memory usage and model performance. By leveraging weight
decomposition, BitStack can dynamically adjust the model size with minimal
transmission between running memory and storage devices. Our approach
iteratively decomposes weight matrices while considering the significance of
each parameter, resulting in an approximately 1-bit per parameter residual
block in each decomposition iteration. These blocks are sorted and stacked in
storage as basic transmission units, with different quantities loaded based on
current memory availability. Extensive experiments across a wide range of tasks
demonstrate that, despite offering fine-grained size control, BitStack
consistently matches or surpasses strong quantization baselines, particularly
at extreme compression ratios. To the best of our knowledge, this is the first
decomposition-based method that effectively bridges the gap to practical
compression techniques like quantization. Code is available at
https://github.com/xinghaow99/BitStack.Summary
AI-Generated Summary