ChatPaper.aiChatPaper

LIFT the Veil for the Truth: Основные веса проявляются после снижения ранга для тонкой настройки с упором на рассуждения

LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reasoning-Focused Supervised Fine-Tuning

June 1, 2025
Авторы: Zihang Liu, Tianyu Pang, Oleg Balabanov, Chaoqun Yang, Tianjin Huang, Lu Yin, Yaoqing Yang, Shiwei Liu
cs.AI

Аннотация

Недавние исследования показали, что контролируемая тонкая настройка крупных языковых моделей (LLM) на небольшом количестве высококачественных наборов данных может привести к значительному улучшению способностей к рассуждению. Однако полная тонкая настройка (Full FT), хотя и мощная, требует значительных вычислительных ресурсов и подвержена переобучению и катастрофическому забыванию, особенно при ограниченном объеме данных. Разреженная тонкая настройка, которая ранее демонстрировала заметные успехи за счет обновления лишь небольшого подмножества параметров модели, предлагает перспективный компромисс между эффективностью и производительностью. Тем не менее, в эпоху LLM она отстает из-за сложности идентификации параметров, действительно критически важных для рассуждений. В данной работе мы утверждаем, что веса с наибольшей величиной после низкоранговой аппроксимации являются критически важными для тонкой настройки, и называем их Главными Весами. Удивительно, что хотя разреженная настройка на основе величины параметров показывает низкую эффективность в качестве базового подхода для тонкой настройки LLM, она становится высокоэффективной после снижения ранга. Эти наблюдения вдохновили наш метод: Разреженная Тонкая Настройка с Учетом Низкого Ранга (LIFT). LIFT обновляет только 5% Главных Весов на протяжении всего обучения и стабильно демонстрирует лучшие результаты в задачах на рассуждение по сравнению с Full FT, сохраняя при этом эффективность использования памяти на уровне популярных методов параметрически эффективной настройки. В дополнение к высокой производительности в целевых областях, таких как арифметические рассуждения, LIFT также сохраняет до 20% больше знаний из исходной области по сравнению с Full FT и LoRA. Наш код доступен по адресу: https://github.com/zihanghliu/LIFT.
English
Recent studies have shown that supervised fine-tuning of LLMs on a small number of high-quality datasets can yield strong reasoning capabilities. However, full fine-tuning (Full FT), while powerful, is computationally expensive and susceptible to overfitting and catastrophic forgetting, particularly when data is limited. Sparse fine-tuning, which previously achieved notable success by updating only a small subset of model parameters, offers a promising trade-off between efficiency and effectiveness. Yet, it has lagged behind in the LLM era due to the difficulty of identifying parameters truly critical for reasoning. In this work, we state that weights with the largest magnitude after low-rank approximation are critical weights for fine-tuning, which we call Principal Weights. Surprisingly, while magnitude-based sparse fine-tuning performs poorly as a baseline on LLM fine-tuning, it becomes highly effective after rank reduction. These insights motivate our method: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT only updates the top 5% Principal Weights throughout training and consistently achieves better performance on reasoning tasks than Full FT, while maintaining memory efficiency on par with popular parameter-efficient fine-tuning methods. In addition to strong performance on target domains such as arithmetic reasoning, LIFT also retains up to 20% more source-domain knowledge, compared to Full FT and LoRA. Our code is available at: https://github.com/zihanghliu/LIFT.
PDF22June 3, 2025