MatryoshkaLoRA: Nauwkeurige hiërarchische laagrangrepresentaties leren voor LLM-finetuning
MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning
May 8, 2026
Auteurs: Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh
cs.AI
Samenvatting
Met de schaalvergroting van deep learning-modellen tot miljarden parameters blijft de computationele kostprijs van fine-tuning een belangrijke barrière voor implementatie. Hoewel Low-Rank Adaptation (LoRA) de standaard is geworden voor parameter-efficiënte fine-tuning, vereist de noodzaak om een vooraf gedefinieerde, statische rang \(r\) in te stellen een uitputtende grid search om efficiëntie en prestaties in balans te brengen. Bestaande rang-adaptieve oplossingen zoals DyLoRA verhelpen dit door tijdens de training rangen te samplen uit een vooraf gedefinieerde verdeling. Ze leveren echter vaak suboptimale resultaten op bij hogere rangen door een gebrek aan consistente gradientsignalen over de volledige hiërarchie van rangen, waardoor deze methoden data-inefficiënt zijn. In dit artikel stellen we MatryoshkaLoRA voor, een algemeen, door Matryoshka geïnspireerd trainingsframework voor LoRA dat nauwkeurige hiërarchische laagrang-representaties leert door een vaste, zorgvuldig ontworpen diagonale matrix \(P\) tussen de bestaande LoRA-adapters in te voegen om hun subrangen dienovereenkomstig te schalen. Door deze eenvoudige wijziging in te voeren, herstelt ons algemene framework LoRA en DyLoRA door alleen \(P\) te veranderen en zorgt het ervoor dat alle subrangen de beschikbare gradientinformatie efficiënt inbedden. Onze MatryoshkaLoRA ondersteunt dynamische rangselectie met minimale degradatie in nauwkeurigheid. We stellen verder Area Under the Rank Accuracy Curve (AURAC) voor, een metriek die consistent de prestaties van hiërarchische laagrang-adapters evalueert. Onze resultaten tonen aan dat MatryoshkaLoRA nauwkeurigere hiërarchische laagrang-representaties leert dan eerdere rang-adaptieve benaderingen en superieure afwegingen tussen nauwkeurigheid en prestaties behaalt over rangen heen op de geëvalueerde datasets. Onze code is beschikbaar op https://github.com/IST-DASLab/MatryoshkaLoRA.
English
With the rise in scale for deep learning models to billions of parameters, the computational cost of fine-tuning remains a significant barrier to deployment. While Low-Rank Adaptation (LoRA) has become the standard for parameter-efficient fine-tuning, the need to set a predefined, static rank r requires exhaustive grid searches to balance efficiency and performance. Existing rank-adaptive solutions such as DyLoRA mitigate this by sampling ranks during the training from a predefined distribution. However, they often yield sub-optimal results at higher ranks due to lack of consistent gradient signals across the full hierarchy of ranks, thus making these methods data-inefficient. In this paper, we propose MatryoshkaLoRA, a general, Matryoshka-inspired training framework for LoRA that learns accurate hierarchical low-rank representations by inserting a fixed, carefully crafted diagonal matrix P between the existing LoRA adapters to scale their sub-ranks accordingly. By introducing this simple modification, our general framework recovers LoRA and DyLoRA only by changing P and ensures all sub-ranks embed the available gradient information efficiently. Our MatryoshkaLoRA supports dynamic rank selection with minimal degradation in accuracy. We further propose Area Under the Rank Accuracy Curve (AURAC), a metric that consistently evaluates the performance of hierarchical low-rank adapters. Our results demonstrate that MatryoshkaLoRA learns more accurate hierarchical low-rank representations than prior rank-adaptive approaches and achieves superior accuracy-performance trade-offs across ranks on the evaluated datasets. Our code is available at https://github.com/IST-DASLab/MatryoshkaLoRA.