Объединенный взгляд на редактирование параметров дельта в пост-тренировочных моделях большого масштаба.
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
Авторы: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Аннотация
Пост-тренировка стала ключевым парадигмой для адаптации крупномасштабных предварительно обученных моделей к различным задачам, чьи эффекты полностью отражаются дельта-параметрами (т.е. различием между параметрами после обучения и предварительного обучения). В то время как множество исследований исследовали свойства дельта-параметров через операции, такие как обрезка, квантизация, аппроксимация низкого ранга и экстраполяция, единая структура для систематического изучения этих характеристик отсутствовала. В данной статье мы предлагаем новую перспективу на основе аппроксимации суммы Римана функции потерь для прояснения операций редактирования дельта-параметров. Наш анализ классифицирует существующие методы на три класса на основе их производительности после редактирования: конкурентоспособные, уменьшенные и улучшенные, объясняя, как они выражаются термином аппроксимации суммы Римана и как они изменяют производительность модели. Обширные эксперименты как с визуальными, так и с языковыми моделями, включая ViT, LLaMA 3, Qwen 2 и Mistral, подтверждают наши теоретические выводы. Более того, мы представляем расширения существующих техник, таких как DARE и BitDelta, выделяя их ограничения в использовании свойств дельта-параметров и переорганизуя их в общие выражения для улучшения применимости и эффективности редактирования дельта-параметров в пост-тренировочных моделях.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary