ChatPaper.aiChatPaper

LIFT il Velo per la Verità: I Pesi Principali Emergono dopo la Riduzione del Rango per il Fine-Tuning Supervisionato Orientato al Ragionamento

LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning

June 1, 2025
Autori: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
cs.AI

Abstract

Studi recenti hanno dimostrato che il fine-tuning supervisionato di LLM su un numero limitato di dataset di alta qualità può produrre forti capacità di ragionamento. Tuttavia, il fine-tuning completo (Full FT), sebbene potente, è computazionalmente costoso e suscettibile a overfitting e dimenticanza catastrofica, specialmente quando i dati sono limitati. Il fine-tuning sparso, che in precedenza ha ottenuto un notevole successo aggiornando solo un piccolo sottoinsieme dei parametri del modello, offre un promettente compromesso tra efficienza ed efficacia. Tuttavia, è rimasto indietro nell'era degli LLM a causa della difficoltà di identificare i parametri veramente critici per il ragionamento. In questo lavoro, affermiamo che i pesi con la magnitudine più grande dopo l'approssimazione a basso rango sono pesi critici per il fine-tuning, che chiamiamo Principal Weights. Sorprendentemente, mentre il fine-tuning sparso basato sulla magnitudine si comporta male come baseline nel fine-tuning degli LLM, diventa altamente efficace dopo la riduzione del rango. Queste intuizioni motivano il nostro metodo: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT aggiorna solo il 5% superiore dei Principal Weights durante l'addestramento e ottiene costantemente prestazioni migliori nei compiti di ragionamento rispetto a Full FT, mantenendo al contempo un'efficienza della memoria paragonabile ai popolari metodi di fine-tuning efficiente dei parametri. Oltre a forti prestazioni in domini target come il ragionamento aritmetico, LIFT conserva anche fino al 20% in più di conoscenza del dominio sorgente, rispetto a Full FT e LoRA. Il nostro codice è disponibile all'indirizzo: https://github.com/zihanghliu/LIFT.
English
Recent studies have shown that supervised fine-tuning of LLMs on a small number of high-quality datasets can yield strong reasoning capabilities. However, full fine-tuning (Full FT), while powerful, is computationally expensive and susceptible to overfitting and catastrophic forgetting, particularly when data is limited. Sparse fine-tuning, which previously achieved notable success by updating only a small subset of model parameters, offers a promising trade-off between efficiency and effectiveness. Yet, it has lagged behind in the LLM era due to the difficulty of identifying parameters truly critical for reasoning. In this work, we state that weights with the largest magnitude after low-rank approximation are critical weights for fine-tuning, which we call Principal Weights. Surprisingly, while magnitude-based sparse fine-tuning performs poorly as a baseline on LLM fine-tuning, it becomes highly effective after rank reduction. These insights motivate our method: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT only updates the top 5% Principal Weights throughout training and consistently achieves better performance on reasoning tasks than Full FT, while maintaining memory efficiency on par with popular parameter-efficient fine-tuning methods. In addition to strong performance on target domains such as arithmetic reasoning, LIFT also retains up to 20% more source-domain knowledge, compared to Full FT and LoRA. Our code is available at: https://github.com/zihanghliu/LIFT.
PDF22June 3, 2025