Земля LoRA: 310 настроенных LLM, конкурирующих с GPT-4, технический отчет

Аннотация

Адаптация низкого ранга (LoRA) стала одним из наиболее широко применяемых методов для эффективной настройки параметров (PEFT) крупных языковых моделей (LLM). LoRA снижает количество обучаемых параметров и использование памяти, сохраняя при этом сопоставимую производительность с полной настройкой. Наша цель - оценить возможность обучения и обслуживания LLM, настроенных с помощью LoRA, в реальных приложениях. Сначала мы измеряем качество LLM, настроенных с помощью квантованных адаптеров низкого ранга на 10 базовых моделях и 31 задаче, всего 310 моделей. Мы обнаружили, что модели, настроенные с помощью 4-битного LoRA, превосходят базовые модели в среднем на 34 пункта и GPT-4 на 10 пунктов. Во-вторых, мы исследуем наиболее эффективные базовые модели для настройки и оцениваем корреляционные и прогностические способности эвристик сложности задачи в прогнозировании результатов настройки. Наконец, мы оцениваем пропускную способность и возможности параллелизма LoRAX, сервера вывода Multi-LoRA с открытым исходным кодом, который облегчает развертывание нескольких моделей, настроенных с помощью LoRA, на одном графическом процессоре с использованием общих весов базовой модели и динамической загрузки адаптеров. LoRAX поддерживает LoRA Land, веб-приложение, которое размещает 25 моделей Mistral-7B LLM, настроенных с помощью LoRA, на одном графическом процессоре NVIDIA A100 с памятью 80 ГБ. LoRA Land подчеркивает качество и экономичность использования нескольких специализированных LLM вместо одной универсальной LLM.

English

Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models (LLMs). LoRA reduces the number of trainable parameters and memory usage while achieving comparable performance to full fine-tuning. We aim to assess the viability of training and serving LLMs fine-tuned with LoRA in real-world applications. First, we measure the quality of LLMs fine-tuned with quantized low rank adapters across 10 base models and 31 tasks for a total of 310 models. We find that 4-bit LoRA fine-tuned models outperform base models by 34 points and GPT-4 by 10 points on average. Second, we investigate the most effective base models for fine-tuning and assess the correlative and predictive capacities of task complexity heuristics in forecasting the outcomes of fine-tuning. Finally, we evaluate the latency and concurrency capabilities of LoRAX, an open-source Multi-LoRA inference server that facilitates the deployment of multiple LoRA fine-tuned models on a single GPU using shared base model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA A100 GPU with 80GB memory. LoRA Land highlights the quality and cost-effectiveness of employing multiple specialized LLMs over a single, general-purpose LLM.

Земля LoRA: 310 настроенных LLM, конкурирующих с GPT-4, технический отчет

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Аннотация

Support