ChatPaper.aiChatPaper

LoRA Land: GPT-4에 필적하는 310개의 미세 조정된 LLM, 기술 보고서

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

April 29, 2024
저자: Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi
cs.AI

초록

Low Rank Adaptation (LoRA)은 대규모 언어 모델(LLM)의 파라미터 효율적 미세 조정(Parameter Efficient Fine-Tuning, PEFT)을 위한 가장 널리 채택된 방법 중 하나로 부상했습니다. LoRA는 학습 가능한 파라미터 수와 메모리 사용량을 줄이면서도 전체 미세 조정과 비슷한 성능을 달성합니다. 우리는 LoRA로 미세 조정된 LLM을 실제 애플리케이션에서 학습 및 서비스하는 것이 가능한지 평가하고자 합니다. 먼저, 10개의 기본 모델과 31개의 작업에 대해 양자화된 저랭크 어댑터로 미세 조정된 LLM의 품질을 측정하여 총 310개의 모델을 분석했습니다. 그 결과, 4비트 LoRA로 미세 조정된 모델은 기본 모델보다 평균 34점, GPT-4보다 10점 더 높은 성능을 보였습니다. 둘째, 미세 조정에 가장 효과적인 기본 모델을 조사하고, 작업 복잡성 휴리스틱이 미세 조정 결과를 예측하는 데 있어 상관적 및 예측적 능력을 평가했습니다. 마지막으로, LoRAX의 지연 시간과 동시 처리 능력을 평가했습니다. LoRAX는 공유된 기본 모델 가중치와 동적 어댑터 로딩을 사용하여 단일 GPU에서 여러 LoRA 미세 조정 모델을 배포할 수 있는 오픈소스 Multi-LoRA 추론 서버입니다. LoRAX는 LoRA Land를 구동하는데, LoRA Land는 단일 NVIDIA A100 GPU(80GB 메모리)에서 25개의 LoRA 미세 조정된 Mistral-7B LLM을 호스팅하는 웹 애플리케이션입니다. LoRA Land는 단일 범용 LLM 대신 여러 특화된 LLM을 사용하는 것이 품질과 비용 효율성 측면에서 우수함을 보여줍니다.
English
Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models (LLMs). LoRA reduces the number of trainable parameters and memory usage while achieving comparable performance to full fine-tuning. We aim to assess the viability of training and serving LLMs fine-tuned with LoRA in real-world applications. First, we measure the quality of LLMs fine-tuned with quantized low rank adapters across 10 base models and 31 tasks for a total of 310 models. We find that 4-bit LoRA fine-tuned models outperform base models by 34 points and GPT-4 by 10 points on average. Second, we investigate the most effective base models for fine-tuning and assess the correlative and predictive capacities of task complexity heuristics in forecasting the outcomes of fine-tuning. Finally, we evaluate the latency and concurrency capabilities of LoRAX, an open-source Multi-LoRA inference server that facilitates the deployment of multiple LoRA fine-tuned models on a single GPU using shared base model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA A100 GPU with 80GB memory. LoRA Land highlights the quality and cost-effectiveness of employing multiple specialized LLMs over a single, general-purpose LLM.

Summary

AI-Generated Summary

PDF1229December 15, 2024