MultiLoRA:より優れたマルチタスク学習のためのLoRAの民主化
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
著者: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
要旨
LoRAは、特定のタスクにLLMを適応させる際に、驚異的なリソース効率と同等の性能を達成します。ChatGPTが様々なタスクで優れた性能を示して以来、1つのモデルをすべてのタスクに適応させたいという要望が高まっています。しかし、LoRAの明示的な低ランク性は、複雑なマルチタスクシナリオでの適応性能を制限します。LoRAは少数のトップ特異ベクトルに支配される一方で、ファインチューニングは重要性の低いユニタリ変換の集合に分解されます。本論文では、LoRAで観察されるトップ特異ベクトルの支配を減らすことで、より良いマルチタスク適応を実現するMultiLoRAを提案します。MultiLoRAはLoRAモジュールを水平方向にスケーリングし、適応行列のパラメータ初期化を変更してパラメータ依存性を低減し、よりバランスの取れたユニタリ部分空間を生成します。我々は、指示追従、自然言語理解、世界知識のデータセットを混合して、意味的および構文的に異なるサンプルをカバーする特殊なトレーニングデータを前例なく構築しました。追加パラメータのわずか2.5%で、MultiLoRAは単一のLoRAやファインチューニングを複数のベンチマークとモデルスケールで上回ります。MultiLoRAの重み更新行列のさらなる調査では、トップ特異ベクトルへの依存性が低減され、より民主的なユニタリ変換の寄与が示されています。
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.