Une vue unifiée de l'édition des paramètres Delta dans les modèles à grande échelle post-entraînés
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
Auteurs: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Résumé
Le post-entraînement est apparu comme un paradigme crucial pour adapter des modèles pré-entraînés à grande échelle à diverses tâches, dont les effets sont pleinement reflétés par les paramètres delta (c'est-à-dire, la disparité entre les paramètres post-entraînés et pré-entraînés). Alors que de nombreuses études ont exploré les propriétés des paramètres delta via des opérations telles que l'élagage, la quantification, l'approximation à faible rang et l'extrapolation, un cadre unifié pour examiner systématiquement ces caractéristiques faisait défaut. Dans cet article, nous proposons une nouvelle perspective basée sur l'approximation de la somme de Riemann de la fonction de perte pour élucider les opérations d'édition des paramètres delta. Notre analyse catégorise les méthodes existantes en trois classes en fonction de leurs performances post-édition : compétitive, diminuée et améliorée, expliquant comment elles sont exprimées par le terme d'approximation de la somme de Riemann et comment elles modifient les performances du modèle. Des expériences approfondies sur des modèles visuels et linguistiques, y compris ViT, LLaMA 3, Qwen 2 et Mistral, corroborent nos conclusions théoriques. De plus, nous introduisons des extensions aux techniques existantes telles que DARE et BitDelta, mettant en évidence leurs limitations dans l'exploitation des propriétés des paramètres delta et les réorganisant en expressions générales pour améliorer l'applicabilité et l'efficacité de l'édition des paramètres delta dans les modèles post-entraînés.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary