ChatPaper.aiChatPaper

MultiLoRA: 다중 작업 학습 향상을 위한 LoRA의 민주화

MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

November 20, 2023
저자: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI

초록

LoRA는 특정 작업에 대형 언어 모델(LLM)을 적응시킬 때 뛰어난 자원 효율성과 비슷한 성능을 달성합니다. ChatGPT가 다양한 작업에서 우수한 성능을 보인 이후, 하나의 모델로 모든 작업을 수행하려는 요구가 증가했습니다. 그러나 LoRA의 명시적인 저차원 특성은 복잡한 다중 작업 시나리오에서의 적응 성능을 제한합니다. LoRA는 소수의 상위 특이 벡터에 의해 지배되는 반면, 미세 조정은 덜 중요한 유니터리 변환 집합으로 분해됩니다. 본 논문에서는 LoRA에서 관찰된 상위 특이 벡터의 지배를 줄여 더 나은 다중 작업 적응을 위한 MultiLoRA를 제안합니다. MultiLoRA는 LoRA 모듈을 수평적으로 확장하고 적응 행렬의 매개변수 초기화를 변경하여 매개변수 의존성을 줄임으로써 더 균형 잡힌 유니터리 부분 공간을 생성합니다. 우리는 지시 따르기, 자연어 이해, 세계 지식 등의 데이터셋을 혼합하여 의미론적 및 구문론적으로 다른 샘플을 포함하는 특수화된 학습 데이터를 전례 없이 구성했습니다. 단 2.5%의 추가 매개변수만으로 MultiLoRA는 단일 LoRA 대비 및 미세 조정을 여러 벤치마크와 모델 규모에서 능가합니다. MultiLoRA의 가중치 업데이트 행렬에 대한 추가 조사는 상위 특이 벡터에 대한 의존성이 줄어들고 더 민주적인 유니터리 변환 기여를 보여줍니다.
English
LoRA achieves remarkable resource efficiency and comparable performance when adapting LLMs for specific tasks. Since ChatGPT demonstrated superior performance on various tasks, there has been a growing desire to adapt one model for all tasks. However, the explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. In this paper, we propose MultiLoRA for better multi-task adaptation by reducing the dominance of top singular vectors observed in LoRA. MultiLoRA scales LoRA modules horizontally and change parameter initialization of adaptation matrices to reduce parameter dependency, thus yields more balanced unitary subspaces. We unprecedentedly construct specialized training data by mixing datasets of instruction follow, natural language understanding, world knowledge, to cover semantically and syntactically different samples. With only 2.5% of additional parameters, MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple benchmarks and model scales. Further investigation into weight update matrices of MultiLoRA exhibits reduced dependency on top singular vectors and more democratic unitary transform contributions.
PDF371December 15, 2024