ChatPaper.aiChatPaper

Verbesserung rekursiver Transformer mit Mixture of LoRAs

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
papers.authors: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

papers.abstract

Parameter-Sharing in rekurrenten Transformatoren reduziert die Modellgröße, schränkt jedoch die Ausdrucksfähigkeit pro Schicht ein. Wir stellen Mixture of LoRAs (MoL) vor, einen leichtgewichtigen Conditional-Computation-Mechanismus, der Low-Rank Adaptation (LoRA)-Experten in ein gemeinsames Feed-Forward-Netzwerk (FFN) einfügt. MoL ermöglicht eine token-konditionale Gewichtsraummodulation des gemeinsamen FFN, ohne die Parameter des Backbones zu lösen – im Gegensatz zu früheren Ansätzen, die feste oder extern angehängte Adapter hinzufügen. Wir pretrainieren eine modernisierte rekurrente Architektur, ModernALBERT, die Rotary Embeddings, GeGLU, FlashAttention und eine distilleriebasierte Initialisierung integriert. Auf GLUE, SQuAD-v2 und BEIR erzielt ModernALBERT (50M–120M) state-of-the-art Leistungen unter kompakten Modellen und übertrifft größere, vollständig parametrisierte Baselines. Wir schlagen zudem ein Verfahren zur Expertenzusammenführung vor, das MoL zur Inferenzzeit unter Wahrung der Genauigkeit in einen einzelnen Adapter komprimiert und so einen effizienten Einsatz ermöglicht. Unsere Ergebnisse zeigen, dass eine konditionale Gewichtsraummodulation die bei aggressivem Parameter-Sharing in rekurrenten Transformatoren verlorene Ausdrucksfähigkeit effektiv wiederherstellt.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF01December 20, 2025