LoRA Land: GPT-4に匹敵する310のファインチューニング済みLLM、技術レポート
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report
April 29, 2024
著者: Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi
cs.AI
要旨
Low Rank Adaptation (LoRA) は、大規模言語モデル (LLM) のパラメータ効率的なファインチューニング (PEFT) 手法として最も広く採用されている方法の一つとなっています。LoRA は、学習可能なパラメータ数とメモリ使用量を削減しながら、フルファインチューニングと同等の性能を達成します。本研究では、LoRA でファインチューニングされた LLM を実世界のアプリケーションでトレーニングおよび提供する際の実現可能性を評価することを目的としています。まず、10 のベースモデルと 31 のタスクに対して、合計 310 のモデルを量子化された低ランクアダプターでファインチューニングした場合の品質を測定します。その結果、4-bit LoRA でファインチューニングされたモデルは、ベースモデルを平均 34 ポイント、GPT-4 を平均 10 ポイント上回ることがわかりました。次に、ファインチューニングに最も効果的なベースモデルを調査し、タスクの複雑さに関するヒューリスティックがファインチューニングの結果を予測する際の相関性と予測能力を評価します。最後に、複数の LoRA ファインチューニングモデルを単一の GPU 上で共有ベースモデルの重みと動的アダプターローディングを使用して展開するためのオープンソースの Multi-LoRA 推論サーバーである LoRAX のレイテンシと並行処理能力を評価します。LoRAX は、LoRA Land を支える技術であり、LoRA Land は単一の NVIDIA A100 GPU(80GB メモリ)上で 25 の LoRA ファインチューニングされた Mistral-7B LLM をホストするウェブアプリケーションです。LoRA Land は、単一の汎用 LLM ではなく、複数の専門化された LLM を採用することの品質とコスト効率の高さを強調しています。
English
Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted
methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models
(LLMs). LoRA reduces the number of trainable parameters and memory usage while
achieving comparable performance to full fine-tuning. We aim to assess the
viability of training and serving LLMs fine-tuned with LoRA in real-world
applications. First, we measure the quality of LLMs fine-tuned with quantized
low rank adapters across 10 base models and 31 tasks for a total of 310 models.
We find that 4-bit LoRA fine-tuned models outperform base models by 34 points
and GPT-4 by 10 points on average. Second, we investigate the most effective
base models for fine-tuning and assess the correlative and predictive
capacities of task complexity heuristics in forecasting the outcomes of
fine-tuning. Finally, we evaluate the latency and concurrency capabilities of
LoRAX, an open-source Multi-LoRA inference server that facilitates the
deployment of multiple LoRA fine-tuned models on a single GPU using shared base
model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web
application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA
A100 GPU with 80GB memory. LoRA Land highlights the quality and
cost-effectiveness of employing multiple specialized LLMs over a single,
general-purpose LLM.