LIFT el velo de la verdad: Los pesos principales emergen tras la reducción de rango para el ajuste fino supervisado enfocado en razonamiento
LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning
June 1, 2025
Autores: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
cs.AI
Resumen
Estudios recientes han demostrado que el ajuste fino supervisado de LLMs en un pequeño número de conjuntos de datos de alta calidad puede generar capacidades de razonamiento sólidas. Sin embargo, el ajuste fino completo (Full FT), aunque potente, es computacionalmente costoso y susceptible a sobreajuste y olvido catastrófico, especialmente cuando los datos son limitados. El ajuste fino disperso, que anteriormente logró un éxito notable al actualizar solo un subconjunto pequeño de los parámetros del modelo, ofrece un equilibrio prometedor entre eficiencia y efectividad. No obstante, se ha quedado rezagado en la era de los LLMs debido a la dificultad de identificar los parámetros verdaderamente críticos para el razonamiento. En este trabajo, afirmamos que los pesos con la mayor magnitud después de una aproximación de bajo rango son pesos críticos para el ajuste fino, a los que llamamos Pesos Principales. Sorprendentemente, aunque el ajuste fino disperso basado en magnitud tiene un rendimiento deficiente como línea base en el ajuste fino de LLMs, se vuelve altamente efectivo después de la reducción de rango. Estas ideas motivan nuestro método: Ajuste Fino Disperso Informado por Bajo Rango (LIFT). LIFT solo actualiza el 5% superior de los Pesos Principales durante el entrenamiento y logra consistentemente un mejor rendimiento en tareas de razonamiento que Full FT, manteniendo una eficiencia de memoria comparable con los métodos populares de ajuste fino eficiente en parámetros. Además de un fuerte rendimiento en dominios objetivo como el razonamiento aritmético, LIFT también retiene hasta un 20% más de conocimiento del dominio fuente, en comparación con Full FT y LoRA. Nuestro código está disponible en: https://github.com/zihanghliu/LIFT.
English
Recent studies have shown that supervised fine-tuning of LLMs on a small
number of high-quality datasets can yield strong reasoning capabilities.
However, full fine-tuning (Full FT), while powerful, is computationally
expensive and susceptible to overfitting and catastrophic forgetting,
particularly when data is limited. Sparse fine-tuning, which previously
achieved notable success by updating only a small subset of model parameters,
offers a promising trade-off between efficiency and effectiveness. Yet, it has
lagged behind in the LLM era due to the difficulty of identifying parameters
truly critical for reasoning. In this work, we state that weights with the
largest magnitude after low-rank approximation are critical weights for
fine-tuning, which we call Principal Weights. Surprisingly, while
magnitude-based sparse fine-tuning performs poorly as a baseline on LLM
fine-tuning, it becomes highly effective after rank reduction. These insights
motivate our method: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT only
updates the top 5% Principal Weights throughout training and consistently
achieves better performance on reasoning tasks than Full FT, while maintaining
memory efficiency on par with popular parameter-efficient fine-tuning methods.
In addition to strong performance on target domains such as arithmetic
reasoning, LIFT also retains up to 20% more source-domain knowledge, compared
to Full FT and LoRA. Our code is available at:
https://github.com/zihanghliu/LIFT.