MatryoshkaLoRA: Lernen präziser hierarchischer Low-Rank-Repräsentationen für die Feinabstimmung von LLMs
MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning
May 8, 2026
Autoren: Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh
cs.AI
Zusammenfassung
Mit dem Anstieg des Umfangs von Deep-Learning-Modellen auf Milliarden von Parametern bleiben die Rechenkosten der Feinabstimmung eine erhebliche Hürde für den Einsatz. Während Low-Rank Adaptation (LoRA) zum Standard für parametereffiziente Feinabstimmung geworden ist, erfordert die Notwendigkeit, einen vordefinierten, statischen Rang r festzulegen, umfassende Gittersuchen, um Effizienz und Leistung auszugleichen. Bestehende rangadaptive Lösungen wie DyLoRA mildern dies, indem sie während des Trainings Ränge aus einer vordefinierten Verteilung sampeln. Sie liefern jedoch bei höheren Rängen oft suboptimale Ergebnisse, da konsistente Gradientensignale über die gesamte Hierarchie der Ränge hinweg fehlen, wodurch diese Methoden datenineffizient werden. In diesem Papier schlagen wir MatryoshkaLoRA vor, ein allgemeines, von Matroschka inspiriertes Trainingsframework für LoRA, das genaue hierarchische Niedrigrangdarstellungen lernt, indem eine feste, sorgfältig konstruierte Diagonalmatrix P zwischen die bestehenden LoRA-Adapter eingefügt wird, um deren Subränge entsprechend zu skalieren. Durch diese einfache Modifikation erholt unser allgemeines Framework LoRA und DyLoRA, indem lediglich P geändert wird, und stellt sicher, dass alle Subränge die verfügbaren Gradienteninformationen effizient einbetten. Unser MatryoshkaLoRA unterstützt die dynamische Rangauswahl mit minimalen Genauigkeitseinbußen. Wir schlagen ferner die Fläche unter der Rang-Genauigkeitskurve (AURAC) vor, eine Metrik, die die Leistung hierarchischer Niedrigrang-Adapter konsistent bewertet. Unsere Ergebnisse zeigen, dass MatryoshkaLoRA genauere hierarchische Niedrigrangdarstellungen lernt als bisherige rangadaptive Ansätze und auf den evaluierten Datensätzen über verschiedene Ränge hinweg überlegene Genauigkeits-Leistungs-Abwägungen erzielt. Unser Code ist verfügbar unter https://github.com/IST-DASLab/MatryoshkaLoRA.
English
With the rise in scale for deep learning models to billions of parameters, the computational cost of fine-tuning remains a significant barrier to deployment. While Low-Rank Adaptation (LoRA) has become the standard for parameter-efficient fine-tuning, the need to set a predefined, static rank r requires exhaustive grid searches to balance efficiency and performance. Existing rank-adaptive solutions such as DyLoRA mitigate this by sampling ranks during the training from a predefined distribution. However, they often yield sub-optimal results at higher ranks due to lack of consistent gradient signals across the full hierarchy of ranks, thus making these methods data-inefficient. In this paper, we propose MatryoshkaLoRA, a general, Matryoshka-inspired training framework for LoRA that learns accurate hierarchical low-rank representations by inserting a fixed, carefully crafted diagonal matrix P between the existing LoRA adapters to scale their sub-ranks accordingly. By introducing this simple modification, our general framework recovers LoRA and DyLoRA only by changing P and ensures all sub-ranks embed the available gradient information efficiently. Our MatryoshkaLoRA supports dynamic rank selection with minimal degradation in accuracy. We further propose Area Under the Rank Accuracy Curve (AURAC), a metric that consistently evaluates the performance of hierarchical low-rank adapters. Our results demonstrate that MatryoshkaLoRA learns more accurate hierarchical low-rank representations than prior rank-adaptive approaches and achieves superior accuracy-performance trade-offs across ranks on the evaluated datasets. Our code is available at https://github.com/IST-DASLab/MatryoshkaLoRA.