ChatPaper.aiChatPaper

再帰的トランスフォーマーの改善:Mixture of LoRAsの応用

Improving Recursive Transformers with Mixture of LoRAs

December 14, 2025
著者: Mohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
cs.AI

要旨

再帰的トランスフォーマーにおけるパラメータ共有はモデルサイズを削減するが、層ごとの表現力を低下させる。本研究では、共有フィードフォワードネットワーク(FFN)内にLoRA(Low-Rank Adaptation)エキスパートを挿入する軽量な条件付き計算機構であるMixture of LoRAs(MoL)を提案する。MoLは、固定または外部接続されたアダプターを追加する従来手法とは異なり、バックボーンパラメータを変更せずに共有FFNのトークン条件付き重み空間変調を可能にする。我々は、回転位置埋め込み、GeGLU、FlashAttention、および知識蒸留に基づく初期化を統合した現代的な再帰的アーキテクチャであるModernALBERTを事前学習した。GLUE、SQuAD-v2、BEIRにおける評価では、ModernALBERT(50M~120Mパラメータ)がコンパクトモデルの中で最高性能を達成し、大規模な完全パラメータ化ベースラインを凌駕した。さらに、推論時に精度を維持したままMoLを単一アダプターに圧縮するエキスパート統合手法を提案し、効率的なデプロイを実現する。実験結果は、条件付き重み空間変調が再帰的トランスフォーマーにおける過度なパラメータ共有によって失われた表現力を効果的に回復させることを示す。
English
Parameter sharing in recursive transformers reduces model size but collapses layer-wise expressivity. We propose Mixture of LoRAs (MoL), a lightweight conditional-computation mechanism that inserts Low-Rank Adaptation (LoRA) experts inside a shared feed-forward network (FFN). MoL enables token-conditional weight-space modulation of the shared FFN without untying backbone parameters, unlike prior approaches that add fixed or externally attached adapters. We pretrain a modernised recursive architecture, ModernALBERT, integrating rotary embeddings, GeGLU, FlashAttention, and a distillation-based initialisation. Across GLUE, SQuAD-v2, and BEIR, ModernALBERT (50M--120M) achieves state-of-the-art performance among compact models and surpasses larger fully parameterised baselines. We also propose an expert-merging procedure that compresses MoL into a single adapter at inference while preserving accuracy, enabling efficient deployment. Our results show that conditional weight-space modulation effectively restores the expressivity lost under aggressive parameter sharing in recursive transformers.
PDF01December 20, 2025