ChatPaper.aiChatPaper

Eine einheitliche Betrachtung der Delta-Parameterbearbeitung in nachtrainierten großskaligen Modellen.

A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

October 17, 2024
Autoren: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI

Zusammenfassung

Die Post-Training-Methode hat sich als entscheidendes Paradigma für die Anpassung von großangelegten, vortrainierten Modellen an verschiedene Aufgaben herausgestellt, deren Auswirkungen vollständig durch Delta-Parameter reflektiert werden (d. h. die Diskrepanz zwischen post-trainierten und vortrainierten Parametern). Während zahlreiche Studien Delta-Parameter-Eigenschaften mittels Operationen wie Pruning, Quantisierung, Niederrangapproximation und Extrapolation untersucht haben, fehlte bisher ein einheitlicher Rahmen zur systematischen Untersuchung dieser Eigenschaften. In diesem Artikel schlagen wir eine neue Perspektive vor, die auf der Riemannschen Summenapproximation der Verlustfunktion basiert, um die Operationen zur Bearbeitung von Delta-Parametern zu erläutern. Unsere Analyse kategorisiert bestehende Methoden basierend auf ihrer Leistung nach der Bearbeitung in drei Klassen: wettbewerbsfähig, verringert und verbessert. Wir erklären, wie sie durch den Riemannschen Summenapproximationsterm ausgedrückt werden und wie sie die Modellleistung verändern. Umfangreiche Experimente an visuellen und Sprachmodellen, einschließlich ViT, LLaMA 3, Qwen 2 und Mistral, bestätigen unsere theoretischen Erkenntnisse. Darüber hinaus stellen wir Erweiterungen bestehender Techniken wie DARE und BitDelta vor, die aufzeigen, wie sie die Eigenschaften von Delta-Parametern nutzen und sie in allgemeine Ausdrücke umstrukturieren können, um die Anwendbarkeit und Effektivität der Bearbeitung von Delta-Parametern in post-trainierten Modellen zu verbessern.
English
Post-training has emerged as a crucial paradigm for adapting large-scale pre-trained models to various tasks, whose effects are fully reflected by delta parameters (i.e., the disparity between post-trained and pre-trained parameters). While numerous studies have explored delta parameter properties via operations like pruning, quantization, low-rank approximation, and extrapolation, a unified framework for systematically examining these characteristics has been lacking. In this paper, we propose a novel perspective based on Riemann sum approximation of the loss function to elucidate delta parameter editing operations. Our analysis categorizes existing methods into three classes based on their post-editing performance: competitive, decreased, and improved, explaining how they are expressed by the Riemann sum approximation term and how they alter the model performance. Extensive experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2, and Mistral, corroborate our theoretical findings. Furthermore, we introduce extensions to existing techniques like DARE and BitDelta, highlighting their limitations in leveraging the properties of delta parameters and reorganizing them into general expressions to enhance the applicability and effectiveness of delta parameter editing in post-trained models.

Summary

AI-Generated Summary

PDF172November 16, 2024