事後トレーニング済みの大規模モデルにおけるデルタパラメータ編集の統一された視点
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
著者: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
要旨
ポストトレーニングは、大規模な事前トレーニング済みモデルをさまざまなタスクに適応させるための重要なパラダイムとして浮上しており、その効果はデルタパラメータ(つまり、ポストトレーニングと事前トレーニングのパラメータ間の不一致)によって完全に反映されます。多くの研究が、剪定、量子化、低ランク近似、および外挿などの操作を介してデルタパラメータの特性を探求してきましたが、これらの特性を体系的に調査する統一されたフレームワークが欠如していました。本論文では、損失関数のリーマン和近似に基づく新しい視点を提案し、デルタパラメータの編集操作を明らかにします。我々の分析は、既存の手法を、そのポスト編集のパフォーマンスに基づいて競争的、低下、改善の3つのクラスに分類し、それらがリーマン和近似項によってどのように表現され、モデルパフォーマンスをどのように変更するかを説明します。ViT、LLaMA 3、Qwen 2、Mistralを含む視覚および言語モデルに関する包括的な実験は、我々の理論的な発見を裏付けます。さらに、DAREやBitDeltaなどの既存の手法の拡張を紹介し、デルタパラメータの特性を活用し、ポストトレーニング済みモデルにおけるデルタパラメータの編集の適用性と効果を向上させるために、それらを一般的な表現に再編成する限界を強調します。
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary