ChatPaper.aiChatPaper

Verbetering van Recursieve Transformers met een Mengsel van LoRA's

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
Auteurs: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

Samenvatting

Parameter sharing in recursieve transformers vermindert de modelgrootte maar doet de expressiviteit per laag ineenstorten. Wij stellen Mixture of LoRAs (MoL) voor, een lichtgewicht mechanisme voor conditionele berekening dat experts voor Low-Rank Adaptation (LoRA) in een gedeeld feedforward netwerk (FFN) plaatst. MoL maakt gewichtsruimtemodulatie van het gedeelde FFN, conditioneel per token, mogelijk zonder de parameters van de backbone los te koppelen, in tegenstelling tot eerdere benaderingen die vaste of extern aangehechte adapters toevoegen. We pretrainen een gemoderniseerde recursieve architectuur, ModernALBERT, geïntegreerd met rotatie-embeddings, GeGLU, FlashAttention en een op distillatie gebaseerde initialisatie. Op GLUE, SQuAD-v2 en BEIR behaalt ModernALBERT (50M–120M parameters) state-of-the-art prestaties onder compacte modellen en overtreft het grotere, volledig geparametriseerde baseline-modellen. We stellen ook een procedure voor voor het samenvoegen van experts, die MoL tijdens de inferentie comprimeert tot een enkele adapter terwijl de nauwkeurigheid behouden blijft, wat efficiënte implementatie mogelijk maakt. Onze resultaten tonen aan dat conditionele modulatie van de gewichtsruimte de expressiviteit die verloren gaat onder agressieve parametersharing in recursieve transformers effectief herstelt.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF51December 31, 2025