Aprimorando Transformers Recursivos com Mistura de LoRAs

Resumo

O compartilhamento de parâmetros em transformadores recursivos reduz o tamanho do modelo, mas colapsa a expressividade por camada. Propomos o Mixture of LoRAs (MoL), um mecanismo leve de computação condicional que insere especialistas de Adaptação de Baixa Patente (LoRA) dentro de uma rede *feed-forward* (FFN) compartilhada. O MoL permite a modulação condicional ao token no espaço de pesos da FFN compartilhada sem desvincular os parâmetros do *backbone*, ao contrário de abordagens anteriores que adicionam adaptadores fixos ou externamente anexados. Pré-treinamos uma arquitetura recursiva modernizada, o ModernALBERT, integrando *rotary embeddings*, GeGLU, FlashAttention e uma inicialização baseada em destilação. Através dos benchmarks GLUE, SQuAD-v2 e BEIR, o ModernALBERT (50M--120M) alcança desempenho de ponta entre modelos compactos e supera *baselines* totalmente parametrizados e maiores. Também propomos um procedimento de fusão de especialistas que comprime o MoL em um único adaptador durante a inferência, preservando a precisão e permitindo uma implantação eficiente. Nossos resultados mostram que a modulação condicional no espaço de pesos restaura efetivamente a expressividade perdida sob o compartilhamento agressivo de parâmetros em transformadores recursivos.

English

Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.

Aprimorando Transformers Recursivos com Mistura de LoRAs

Improving Recursive Transformers with Mixture of LoRAs

Resumo

Support