ChatPaper.aiChatPaper

LIFT le voile pour révéler la vérité : les poids principaux émergent après la réduction de rang pour un réglage fin supervisé axé sur le raisonnement

LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning

June 1, 2025
papers.authors: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
cs.AI

papers.abstract

Des études récentes ont montré que le réglage fin supervisé des LLMs sur un petit nombre de jeux de données de haute qualité peut produire de solides capacités de raisonnement. Cependant, le réglage fin complet (Full FT), bien que puissant, est coûteux en calculs et susceptible de surapprentissage et d'oubli catastrophique, en particulier lorsque les données sont limitées. Le réglage fin parcimonieux, qui a précédemment obtenu un succès notable en ne mettant à jour qu'un petit sous-ensemble de paramètres du modèle, offre un compromis prometteur entre efficacité et performance. Pourtant, il a pris du retard à l'ère des LLMs en raison de la difficulté à identifier les paramètres véritablement critiques pour le raisonnement. Dans ce travail, nous affirmons que les poids ayant la plus grande magnitude après une approximation de bas rang sont des poids critiques pour le réglage fin, que nous appelons Poids Principaux. Étonnamment, bien que le réglage fin parcimonieux basé sur la magnitude soit peu performant comme référence pour le réglage fin des LLMs, il devient très efficace après réduction de rang. Ces observations motivent notre méthode : le Réglage Fin Parcimonieux Informé par le Bas Rang (LIFT). LIFT ne met à jour que les 5 % des Poids Principaux les plus importants tout au long de l'entraînement et obtient systématiquement de meilleures performances sur les tâches de raisonnement que le Full FT, tout en maintenant une efficacité mémoire comparable aux méthodes populaires de réglage fin économe en paramètres. En plus de performances solides sur des domaines cibles tels que le raisonnement arithmétique, LIFT conserve également jusqu'à 20 % de connaissances supplémentaires du domaine source, par rapport au Full FT et à LoRA. Notre code est disponible à l'adresse : https://github.com/zihanghliu/LIFT.
English
Recent studies have shown that supervised fine-tuning of LLMs on a small number of high-quality datasets can yield strong reasoning capabilities. However, full fine-tuning (Full FT), while powerful, is computationally expensive and susceptible to overfitting and catastrophic forgetting, particularly when data is limited. Sparse fine-tuning, which previously achieved notable success by updating only a small subset of model parameters, offers a promising trade-off between efficiency and effectiveness. Yet, it has lagged behind in the LLM era due to the difficulty of identifying parameters truly critical for reasoning. In this work, we state that weights with the largest magnitude after low-rank approximation are critical weights for fine-tuning, which we call Principal Weights. Surprisingly, while magnitude-based sparse fine-tuning performs poorly as a baseline on LLM fine-tuning, it becomes highly effective after rank reduction. These insights motivate our method: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT only updates the top 5% Principal Weights throughout training and consistently achieves better performance on reasoning tasks than Full FT, while maintaining memory efficiency on par with popular parameter-efficient fine-tuning methods. In addition to strong performance on target domains such as arithmetic reasoning, LIFT also retains up to 20% more source-domain knowledge, compared to Full FT and LoRA. Our code is available at: https://github.com/zihanghliu/LIFT.
PDF22June 3, 2025