ChatPaper.aiChatPaper

LoRA 혼합을 통한 재귀적 트랜스포머 성능 향상

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
저자: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

초록

재귀적 트랜스포머에서의 매개변수 공유는 모델 크기를 줄이지만 계층별 표현력을 약화시킵니다. 본 연구에서는 공유된 순전파 신경망(FFN) 내부에 LoRA 전문가들을 삽입하는 경량 조건부 계산 메커니즘인 Mixture of LoRAs(MoL)를 제안합니다. MoL은 고정되거나 외부에 부착된 어댑터를 추가하는 기존 접근법과 달리, 백본 매개변수를 분리하지 않고도 공유 FFN의 토큰 조건부 가중치 공간 변조를 가능하게 합니다. 우리는 로터리 임베딩, GeGLU, FlashAttention 및 지식 증류 기반 초기화를 통합한 현대화된 재귀 구조인 ModernALBERT를 사전 학습했습니다. GLUE, SQuAD-v2, BEIR 벤치마크에서 ModernALBERT(50M–120M)는 컴팩트 모델 중 최고 성능을 달성하고 더 큰 완전 매개변수화 기준 모델들을 능가했습니다. 또한 추론 시 정확도를 유지하면서 MoL을 단일 어댑터로 압축하는 전문가 병합 절차를 제안하여 효율적인 배포를 가능하게 합니다. 우리의 결과는 조건부 가중치 공간 변조가 재귀적 트랜스포머의 공격적 매개변수 공유 하에서 상실된 표현력을 효과적으로 회복시킴을 보여줍니다.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF01December 20, 2025