ChatPaper.aiChatPaper

LoRA의 위대함을 다시 찾아서: 적응형 특이값과 전문가 혼합 최적화 정렬을 통한 LoRA 성능 향상

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

February 24, 2025
저자: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI

초록

저순위 적응(LoRA)은 대규모 언어 모델(LLM)의 매개변수 효율적 미세 조정을 가능하게 하지만, 그 성능은 종종 완전 미세 조정(Full FT)에 미치지 못합니다. 현재의 방법들은 정적 특이값 분해(SVD) 부분집합으로 초기화하여 LoRA를 최적화하지만, 이는 사전 학습된 지식을 최적으로 활용하지 못하는 결과를 초래합니다. LoRA를 개선하는 또 다른 방법은 전문가 혼합(MoE) 아키텍처를 통합하는 것입니다. 그러나 가중치 불일치와 복잡한 기울기 역학으로 인해 LoRA MoE 아키텍처에 SVD를 적용하기가 어려운 실정입니다. 이러한 문제를 완화하기 위해, 우리는 GOAT(Great LoRA Mixture-of-Expert) 프레임워크를 제안합니다. GOAT는 (1) SVD 구조의 MoE를 사용하여 관련 사전 지식을 적응적으로 통합하고, (2) 이론적 스케일링 인자를 도출하여 완전 미세 조정된 MoE와 최적화를 맞춥니다. 우리는 아키텍처나 학습 알고리즘을 수정하지 않고도 적절한 스케일링이 LoRA MoE의 효율성과 성능을 향상시킨다는 것을 입증합니다. 자연어 이해, 상식 추론, 이미지 분류, 자연어 생성 등 25개 데이터셋에 대한 실험을 통해 GOAT가 최신 기술 수준의 성능을 보이며 Full FT와의 격차를 좁히는 것을 확인했습니다.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for Large Language Models (LLMs), its performance often falls short of Full Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with static singular value decomposition (SVD) subsets, leading to suboptimal leveraging of pre-trained knowledge. Another path for improving LoRA is incorporating a Mixture-of-Experts (MoE) architecture. However, weight misalignment and complex gradient dynamics make it challenging to adopt SVD prior to the LoRA MoE architecture. To mitigate these issues, we propose Great LoRA Mixture-of-Expert (GOAT), a framework that (1) adaptively integrates relevant priors using an SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by deriving a theoretical scaling factor. We demonstrate that proper scaling, without modifying the architecture or training algorithms, boosts LoRA MoE's efficiency and performance. Experiments across 25 datasets, including natural language understanding, commonsense reasoning, image classification, and natural language generation, demonstrate GOAT's state-of-the-art performance, closing the gap with Full FT.

Summary

AI-Generated Summary

PDF294February 25, 2025