ChatPaper.aiChatPaper

MultiLoRA: Demokratisierung von LoRA für verbessertes Multi-Task-Lernen

MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

November 20, 2023
Autoren: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI

Zusammenfassung

LoRA erreicht eine bemerkenswerte Ressourceneffizienz und vergleichbare Leistung bei der Anpassung von LLMs für spezifische Aufgaben. Seit ChatGPT eine überlegene Leistung bei verschiedenen Aufgaben gezeigt hat, besteht ein zunehmendes Interesse daran, ein Modell für alle Aufgaben anzupassen. Allerdings begrenzt der explizite niedrige Rang von LoRA die Anpassungsleistung in komplexen Multi-Task-Szenarien. LoRA wird von einer kleinen Anzahl von Top-Singulärvektoren dominiert, während das Fine-Tuning in eine Reihe von weniger wichtigen unitären Transformationen zerfällt. In diesem Artikel schlagen wir MultiLoRA für eine bessere Multi-Task-Anpassung vor, indem wir die Dominanz der Top-Singulärvektoren, die bei LoRA beobachtet wird, reduzieren. MultiLoRA skaliert LoRA-Module horizontal und ändert die Parameterinitialisierung der Anpassungsmatrizen, um die Parameterabhängigkeit zu verringern, wodurch ausgewogenere unitäre Unterräume entstehen. Wir erstellen erstmals spezialisierte Trainingsdaten, indem wir Datensätze zur Befolgung von Anweisungen, zum natürlichen Sprachverständnis und zum Weltwissen mischen, um semantisch und syntaktisch unterschiedliche Proben abzudecken. Mit nur 2,5 % zusätzlicher Parameter übertrifft MultiLoRA einzelne LoRA-Varianten und das Fine-Tuning auf mehreren Benchmarks und Modellgrößen. Eine weitere Untersuchung der Gewichtsaktualisierungsmatrizen von MultiLoRA zeigt eine verringerte Abhängigkeit von Top-Singulärvektoren und eine demokratischere Beteiligung der unitären Transformationen.
English
LoRA achieves remarkable resource efficiency and comparable performance when adapting LLMs for specific tasks. Since ChatGPT demonstrated superior performance on various tasks, there has been a growing desire to adapt one model for all tasks. However, the explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. In this paper, we propose MultiLoRA for better multi-task adaptation by reducing the dominance of top singular vectors observed in LoRA. MultiLoRA scales LoRA modules horizontally and change parameter initialization of adaptation matrices to reduce parameter dependency, thus yields more balanced unitary subspaces. We unprecedentedly construct specialized training data by mixing datasets of instruction follow, natural language understanding, world knowledge, to cover semantically and syntactically different samples. With only 2.5% of additional parameters, MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple benchmarks and model scales. Further investigation into weight update matrices of MultiLoRA exhibits reduced dependency on top singular vectors and more democratic unitary transform contributions.
PDF371December 15, 2024