ChatPaper.aiChatPaper

Uma Visão Unificada da Edição de Parâmetros Delta em Modelos de Grande Escala Pós-Treinados

A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

October 17, 2024
Autores: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI

Resumo

O pós-treinamento surgiu como um paradigma crucial para adaptar modelos pré-treinados em larga escala a várias tarefas, cujos efeitos são totalmente refletidos pelos parâmetros delta (ou seja, a disparidade entre os parâmetros pós-treinados e pré-treinados). Enquanto inúmeros estudos exploraram as propriedades dos parâmetros delta por meio de operações como poda, quantização, aproximação de baixa ordem e extrapolação, tem faltado um framework unificado para examinar sistematicamente essas características. Neste artigo, propomos uma nova perspectiva baseada na aproximação da soma de Riemann da função de perda para elucidar as operações de edição de parâmetros delta. Nossa análise categoriza os métodos existentes em três classes com base em seu desempenho pós-edição: competitivo, diminuído e melhorado, explicando como são expressos pelo termo de aproximação da soma de Riemann e como alteram o desempenho do modelo. Experimentos extensivos em modelos visuais e de linguagem, incluindo ViT, LLaMA 3, Qwen 2 e Mistral, corroboram nossas descobertas teóricas. Além disso, introduzimos extensões às técnicas existentes como DARE e BitDelta, destacando suas limitações em alavancar as propriedades dos parâmetros delta e reorganizando-os em expressões gerais para aprimorar a aplicabilidade e eficácia da edição de parâmetros delta em modelos pós-treinados.
English
Post-training has emerged as a crucial paradigm for adapting large-scale pre-trained models to various tasks, whose effects are fully reflected by delta parameters (i.e., the disparity between post-trained and pre-trained parameters). While numerous studies have explored delta parameter properties via operations like pruning, quantization, low-rank approximation, and extrapolation, a unified framework for systematically examining these characteristics has been lacking. In this paper, we propose a novel perspective based on Riemann sum approximation of the loss function to elucidate delta parameter editing operations. Our analysis categorizes existing methods into three classes based on their post-editing performance: competitive, decreased, and improved, explaining how they are expressed by the Riemann sum approximation term and how they alter the model performance. Extensive experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2, and Mistral, corroborate our theoretical findings. Furthermore, we introduce extensions to existing techniques like DARE and BitDelta, highlighting their limitations in leveraging the properties of delta parameters and reorganizing them into general expressions to enhance the applicability and effectiveness of delta parameter editing in post-trained models.

Summary

AI-Generated Summary

PDF172November 16, 2024