ChatPaper.aiChatPaper

LoRA Land: GPT-4に匹敵する310のファインチューニング済みLLM、技術レポート

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

April 29, 2024
著者: Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi
cs.AI

要旨

Low Rank Adaptation (LoRA) は、大規模言語モデル (LLM) のパラメータ効率的なファインチューニング (PEFT) 手法として最も広く採用されている方法の一つとなっています。LoRA は、学習可能なパラメータ数とメモリ使用量を削減しながら、フルファインチューニングと同等の性能を達成します。本研究では、LoRA でファインチューニングされた LLM を実世界のアプリケーションでトレーニングおよび提供する際の実現可能性を評価することを目的としています。まず、10 のベースモデルと 31 のタスクに対して、合計 310 のモデルを量子化された低ランクアダプターでファインチューニングした場合の品質を測定します。その結果、4-bit LoRA でファインチューニングされたモデルは、ベースモデルを平均 34 ポイント、GPT-4 を平均 10 ポイント上回ることがわかりました。次に、ファインチューニングに最も効果的なベースモデルを調査し、タスクの複雑さに関するヒューリスティックがファインチューニングの結果を予測する際の相関性と予測能力を評価します。最後に、複数の LoRA ファインチューニングモデルを単一の GPU 上で共有ベースモデルの重みと動的アダプターローディングを使用して展開するためのオープンソースの Multi-LoRA 推論サーバーである LoRAX のレイテンシと並行処理能力を評価します。LoRAX は、LoRA Land を支える技術であり、LoRA Land は単一の NVIDIA A100 GPU(80GB メモリ)上で 25 の LoRA ファインチューニングされた Mistral-7B LLM をホストするウェブアプリケーションです。LoRA Land は、単一の汎用 LLM ではなく、複数の専門化された LLM を採用することの品質とコスト効率の高さを強調しています。
English
Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models (LLMs). LoRA reduces the number of trainable parameters and memory usage while achieving comparable performance to full fine-tuning. We aim to assess the viability of training and serving LLMs fine-tuned with LoRA in real-world applications. First, we measure the quality of LLMs fine-tuned with quantized low rank adapters across 10 base models and 31 tasks for a total of 310 models. We find that 4-bit LoRA fine-tuned models outperform base models by 34 points and GPT-4 by 10 points on average. Second, we investigate the most effective base models for fine-tuning and assess the correlative and predictive capacities of task complexity heuristics in forecasting the outcomes of fine-tuning. Finally, we evaluate the latency and concurrency capabilities of LoRAX, an open-source Multi-LoRA inference server that facilitates the deployment of multiple LoRA fine-tuned models on a single GPU using shared base model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA A100 GPU with 80GB memory. LoRA Land highlights the quality and cost-effectiveness of employing multiple specialized LLMs over a single, general-purpose LLM.
PDF1229December 15, 2024