MatryoshkaLoRA : Apprentissage de représentations hiérarchiques de bas rang précises pour l’ajustement fin des LLM

Résumé

Avec l'augmentation de l'échelle des modèles d'apprentissage profond atteignant des milliards de paramètres, le coût computationnel du fine-tuning reste un obstacle majeur à leur déploiement. Bien que l'Adaptation de Bas Rang (LoRA) soit devenue la méthode standard pour un fine-tuning efficace en paramètres, la nécessité de définir un rang statique prédéfini r exige des recherches exhaustives en grille pour équilibrer efficacité et performance. Les solutions adaptatives en rang existantes, telles que DyLoRA, atténuent ce problème en échantillonnant les rangs pendant l'entraînement à partir d'une distribution prédéfinie. Cependant, elles produisent souvent des résultats sous-optimaux pour les rangs élevés en raison d'un manque de signaux de gradient cohérents dans toute la hiérarchie des rangs, rendant ces méthodes inefficaces en termes de données. Dans cet article, nous proposons MatryoshkaLoRA, un cadre d'entraînement général pour LoRA inspiré de la poupée Matriochka, qui apprend des représentations hiérarchiques de bas rang précises en insérant une matrice diagonale P fixe et soigneusement conçue entre les adaptateurs LoRA existants pour mettre à l'échelle leurs sous-rangs en conséquence. En introduisant cette simple modification, notre cadre général retrouve LoRA et DyLoRA simplement en changeant P et garantit que tous les sous-rangs intègrent efficacement l'information de gradient disponible. Notre MatryoshkaLoRA prend en charge la sélection dynamique de rang avec une dégradation minimale de la précision. Nous proposons également l'Aire sous la courbe de précision en fonction du rang (AURAC), une métrique qui évalue de manière cohérente la performance des adaptateurs hiérarchiques de bas rang. Nos résultats montrent que MatryoshkaLoRA apprend des représentations hiérarchiques de bas rang plus précises que les approches adaptatives en rang antérieures et atteint des compromis précision-performance supérieurs sur les différents rangs pour les jeux de données évalués. Notre code est disponible à l'adresse https://github.com/IST-DASLab/MatryoshkaLoRA.

English

With the rise in scale for deep learning models to billions of parameters, the computational cost of fine-tuning remains a significant barrier to deployment. While Low-Rank Adaptation (LoRA) has become the standard for parameter-efficient fine-tuning, the need to set a predefined, static rank r requires exhaustive grid searches to balance efficiency and performance. Existing rank-adaptive solutions such as DyLoRA mitigate this by sampling ranks during the training from a predefined distribution. However, they often yield sub-optimal results at higher ranks due to lack of consistent gradient signals across the full hierarchy of ranks, thus making these methods data-inefficient. In this paper, we propose MatryoshkaLoRA, a general, Matryoshka-inspired training framework for LoRA that learns accurate hierarchical low-rank representations by inserting a fixed, carefully crafted diagonal matrix P between the existing LoRA adapters to scale their sub-ranks accordingly. By introducing this simple modification, our general framework recovers LoRA and DyLoRA only by changing P and ensures all sub-ranks embed the available gradient information efficiently. Our MatryoshkaLoRA supports dynamic rank selection with minimal degradation in accuracy. We further propose Area Under the Rank Accuracy Curve (AURAC), a metric that consistently evaluates the performance of hierarchical low-rank adapters. Our results demonstrate that MatryoshkaLoRA learns more accurate hierarchical low-rank representations than prior rank-adaptive approaches and achieves superior accuracy-performance trade-offs across ranks on the evaluated datasets. Our code is available at https://github.com/IST-DASLab/MatryoshkaLoRA.

MatryoshkaLoRA : Apprentissage de représentations hiérarchiques de bas rang précises pour l’ajustement fin des LLM

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

Résumé

Support