LIFT o Véu para a Verdade: Pesos Principais Emergem após a Redução de Rank para Ajuste Fino Supervisionado Focado em Raciocínio
LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning
June 1, 2025
Autores: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
cs.AI
Resumo
Estudos recentes demonstraram que o ajuste fino supervisionado de LLMs em um pequeno número de conjuntos de dados de alta qualidade pode resultar em capacidades de raciocínio robustas. No entanto, o ajuste fino completo (Full FT), embora poderoso, é computacionalmente caro e suscetível a overfitting e esquecimento catastrófico, especialmente quando os dados são limitados. O ajuste fino esparso, que anteriormente obteve sucesso notável ao atualizar apenas um pequeno subconjunto de parâmetros do modelo, oferece uma compensação promissora entre eficiência e eficácia. No entanto, ele ficou para trás na era dos LLMs devido à dificuldade de identificar parâmetros verdadeiramente críticos para o raciocínio. Neste trabalho, afirmamos que os pesos com a maior magnitude após a aproximação de baixa classificação são pesos críticos para o ajuste fino, que chamamos de Pesos Principais. Surpreendentemente, embora o ajuste fino esparso baseado em magnitude tenha um desempenho ruim como linha de base no ajuste fino de LLMs, ele se torna altamente eficaz após a redução de classificação. Esses insights motivam nosso método: Ajuste Fino Especial Informado por Baixa Classificação (LIFT). O LIFT atualiza apenas os 5% principais Pesos Principais durante o treinamento e consistentemente alcança um desempenho melhor em tarefas de raciocínio do que o Full FT, mantendo a eficiência de memória em par com métodos populares de ajuste fino eficiente em parâmetros. Além de um forte desempenho em domínios-alvo, como raciocínio aritmético, o LIFT também retém até 20% a mais de conhecimento do domínio de origem, em comparação com o Full FT e o LoRA. Nosso código está disponível em: https://github.com/zihanghliu/LIFT.
English
Recent studies have shown that supervised fine-tuning of LLMs on a small
number of high-quality datasets can yield strong reasoning capabilities.
However, full fine-tuning (Full FT), while powerful, is computationally
expensive and susceptible to overfitting and catastrophic forgetting,
particularly when data is limited. Sparse fine-tuning, which previously
achieved notable success by updating only a small subset of model parameters,
offers a promising trade-off between efficiency and effectiveness. Yet, it has
lagged behind in the LLM era due to the difficulty of identifying parameters
truly critical for reasoning. In this work, we state that weights with the
largest magnitude after low-rank approximation are critical weights for
fine-tuning, which we call Principal Weights. Surprisingly, while
magnitude-based sparse fine-tuning performs poorly as a baseline on LLM
fine-tuning, it becomes highly effective after rank reduction. These insights
motivate our method: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT only
updates the top 5% Principal Weights throughout training and consistently
achieves better performance on reasoning tasks than Full FT, while maintaining
memory efficiency on par with popular parameter-efficient fine-tuning methods.
In addition to strong performance on target domains such as arithmetic
reasoning, LIFT also retains up to 20% more source-domain knowledge, compared
to Full FT and LoRA. Our code is available at:
https://github.com/zihanghliu/LIFT.