ChatPaper.aiChatPaper

Mejora de Transformadores Recursivos con Mezcla de LoRAs

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
Autores: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

Resumen

El uso compartido de parámetros en transformadores recursivos reduce el tamaño del modelo pero colapsa la expresividad por capas. Proponemos Mixture of LoRAs (MoL), un mecanismo ligero de cómputo condicional que inserta expertos de Adaptación de Bajo Rango (LoRA) dentro de una red neuronal feed-forward (FFN) compartida. MoL permite la modulación condicional por token en el espacio de pesos de la FFN compartida sin desvincular los parámetros del *backbone*, a diferencia de enfoques previos que añaden adaptadores fijos o externamente adjuntos. Preentrenamos una arquitectura recursiva modernizada, ModernALBERT, integrando *rotary embeddings*, GeGLU, FlashAttention y una inicialización basada en destilación. En GLUE, SQuAD-v2 y BEIR, ModernALBERT (50M--120M) logra un rendimiento de vanguardia entre los modelos compactos y supera a líneas base completamente parametrizadas de mayor tamaño. También proponemos un procedimiento de fusión de expertos que comprime MoL en un único adaptador durante la inferencia preservando la precisión, permitiendo un despliegue eficiente. Nuestros resultados demuestran que la modulación condicional en el espacio de pesos restaura efectivamente la expresividad perdida bajo el uso compartido agresivo de parámetros en transformadores recursivos.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF01December 20, 2025