Una Visione Unificata della Modifica dei Parametri Delta nei Modelli su Larga Scala Post-Allenamento
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
Autori: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Abstract
Il post-addestramento è emerso come un paradigma cruciale per adattare modelli pre-addestrati su larga scala a varie attività, i cui effetti sono pienamente riflessi dai parametri delta (cioè, la disparità tra i parametri post-addestramento e pre-addestramento). Mentre numerosi studi hanno esplorato le proprietà dei parametri delta tramite operazioni come potatura, quantizzazione, approssimazione a basso rango ed estrapolazione, manca un quadro unificato per esaminare sistematicamente queste caratteristiche. In questo articolo, proponiamo una prospettiva innovativa basata sull'approssimazione della somma di Riemann della funzione di perdita per chiarire le operazioni di modifica dei parametri delta. La nostra analisi categorizza i metodi esistenti in tre classi in base alle loro prestazioni post-modifica: competitiva, diminuita e migliorata, spiegando come siano espressi dal termine di approssimazione della somma di Riemann e come alterino le prestazioni del modello. Estesi esperimenti su modelli visivi e linguistici, inclusi ViT, LLaMA 3, Qwen 2 e Mistral, confermano le nostre conclusioni teoriche. Inoltre, introduciamo estensioni alle tecniche esistenti come DARE e BitDelta, evidenziando i loro limiti nel sfruttare le proprietà dei parametri delta e riorganizzandoli in espressioni generali per migliorare l'applicabilità e l'efficacia della modifica dei parametri delta nei modelli post-addestramento.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary