ChatPaper.aiChatPaper

Amélioration des transformeurs récursifs par mélange de LoRAs

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
papers.authors: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

papers.abstract

Le partage de paramètres dans les transformers récursifs réduit la taille du modèle mais entraîne un effondrement de l'expressivité par couche. Nous proposons Mixture of LoRAs (MoL), un mécanisme de calcul conditionnel léger qui insère des experts d'Adaptation de Bas Rang (LoRA) au sein d'un réseau feed-forward partagé (FFN). MoL permet une modulation conditionnelle par token dans l'espace des poids du FFN partagé sans délier les paramètres de la structure de base, contrairement aux approches antérieures qui ajoutent des adaptateurs fixes ou externes. Nous pré-entraînons une architecture récursive modernisée, ModernALBERT, intégrant des embeddings rotationnels, GeGLU, FlashAttention et une initialisation par distillation. Sur GLUE, SQuAD-v2 et BEIR, ModernALBERT (50M–120M) obtient des performances à l'état de l'art parmi les modèles compacts et surpasse des modèles de référence entièrement paramétrés et plus grands. Nous proposons également une procédure de fusion d'experts qui compresse MoL en un seul adaptateur lors de l'inférence tout en préservant la précision, permettant un déploiement efficace. Nos résultats montrent que la modulation conditionnelle dans l'espace des poids restaure efficacement l'expressivité perdue lors d'un partage agressif des paramètres dans les transformers récursifs.
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF01December 20, 2025