LoRA Land:GPT-4に匹敵する310のファインチューニング済みLLM、技術レポート
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report
April 29, 2024
著者: Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi
cs.AI
要旨
Low Rank Adaptation (LoRA) は、大規模言語モデル (LLM) のパラメータ効率型ファインチューニング (PEFT) 手法として最も広く採用されている方法の1つとして登場しました。LoRAは、フルファインチューニングと同等の性能を達成しながら、学習可能なパラメータ数とメモリ使用量を削減します。本研究では、LoRAでファインチューニングされたLLMを実世界のアプリケーションで学習およびサービス提供することの実現可能性を評価することを目的としています。まず、量子化された低ランクアダプタでファインチューニングされたLLMの品質を、10のベースモデルと31のタスク、合計310モデルにわたって測定します。その結果、4ビットLoRAファインチューニングモデルは、ベースモデルを平均34ポイント、GPT-4を平均10ポイント上回る性能を示すことがわかりました。次に、ファインチューニングに最も効果的なベースモデルを調査し、タスク複雑性のヒューリスティックがファインチューニング結果を予測するための相関能力および予測能力を評価します。最後に、LoRAXのレイテンシと並行処理能力を評価します。LoRAXはオープンソースのマルチLoRA推論サーバーであり、共有ベースモデル重みと動的アダプタ読み込みを用いて、単一GPU上で複数のLoRAファインチューニングモデルのデプロイを可能にします。LoRAXはLoRA Landを支える技術であり、これは25のLoRAファインチューニングされたMistral-7B LLMを、メモリ80GBの単一のNVIDIA A100 GPU上でホストするウェブアプリケーションです。LoRA Landは、単一の汎用LLMを使用するよりも、複数の専門特化したLLMを採用することの品質とコスト効率の高さを実証しています。
English
Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted
methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models
(LLMs). LoRA reduces the number of trainable parameters and memory usage while
achieving comparable performance to full fine-tuning. We aim to assess the
viability of training and serving LLMs fine-tuned with LoRA in real-world
applications. First, we measure the quality of LLMs fine-tuned with quantized
low rank adapters across 10 base models and 31 tasks for a total of 310 models.
We find that 4-bit LoRA fine-tuned models outperform base models by 34 points
and GPT-4 by 10 points on average. Second, we investigate the most effective
base models for fine-tuning and assess the correlative and predictive
capacities of task complexity heuristics in forecasting the outcomes of
fine-tuning. Finally, we evaluate the latency and concurrency capabilities of
LoRAX, an open-source Multi-LoRA inference server that facilitates the
deployment of multiple LoRA fine-tuned models on a single GPU using shared base
model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web
application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA
A100 GPU with 80GB memory. LoRA Land highlights the quality and
cost-effectiveness of employing multiple specialized LLMs over a single,
general-purpose LLM.