ChatPaper.aiChatPaper

Miglioramento dei Trasformatori Ricorsivi con Mistura di LoRA

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
Autori: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

Abstract

La condivisione dei parametri nei transformer ricorsivi riduce le dimensioni del modello ma comprime l'espressività per strato. Proponiamo Mixture of LoRAs (MoL), un meccanismo di calcolo condizionale leggero che inserisce esperti di Low-Rank Adaptation (LoRA) all'interno di una rete feed-forward condivisa (FFN). MoL consente la modulazione condizionata al token dello spazio dei pesi nella FFN condivisa senza sciogliere i parametri del backbone, a differenza degli approcci precedenti che aggiungevano adattatori fissi o esternamente collegati. Addestriamo un'architettura ricorsiva modernizzata, ModernALBERT, integrando embedding rotazionali, GeGLU, FlashAttention e un'inizializzazione basata su distillazione. Su GLUE, SQuAD-v2 e BEIR, ModernALBERT (50M-120M) raggiunge prestazioni all'avanguardia tra i modelli compatti e supera baseline completamente parametrizzate più grandi. Proponiamo inoltre una procedura di fusione degli esperti che comprime MoL in un singolo adattatore durante l'inferenza preservando l'accuratezza, consentendo un deployment efficiente. I nostri risultati dimostrano che la modulazione condizionata dello spazio dei pesi ripristina efficacemente l'espressività persa a causa della condivisione aggressiva dei parametri nei transformer ricorsivi.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF21December 21, 2025