Una Visión Unificada de la Edición de Parámetros Delta en Modelos a Gran Escala Post-Entrenados
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models
October 17, 2024
Autores: Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Resumen
El post-entrenamiento ha surgido como un paradigma crucial para adaptar modelos pre-entrenados a gran escala a diversas tareas, cuyos efectos se reflejan completamente en los parámetros delta (es decir, la disparidad entre los parámetros post-entrenados y pre-entrenados). Si bien numerosos estudios han explorado las propiedades de los parámetros delta a través de operaciones como poda, cuantificación, aproximación de rango bajo y extrapolación, ha faltado un marco unificado para examinar sistemáticamente estas características. En este documento, proponemos una nueva perspectiva basada en la aproximación de la suma de Riemann de la función de pérdida para elucidar las operaciones de edición de parámetros delta. Nuestro análisis categoriza los métodos existentes en tres clases según su rendimiento post-edición: competitivo, disminuido y mejorado, explicando cómo se expresan mediante el término de aproximación de la suma de Riemann y cómo alteran el rendimiento del modelo. Experimentos extensos en modelos visuales y de lenguaje, incluidos ViT, LLaMA 3, Qwen 2 y Mistral, corroboran nuestros hallazgos teóricos. Además, presentamos extensiones a técnicas existentes como DARE y BitDelta, resaltando sus limitaciones para aprovechar las propiedades de los parámetros delta y reorganizándolos en expresiones generales para mejorar la aplicabilidad y efectividad de la edición de parámetros delta en modelos post-entrenados.
English
Post-training has emerged as a crucial paradigm for adapting large-scale
pre-trained models to various tasks, whose effects are fully reflected by delta
parameters (i.e., the disparity between post-trained and pre-trained
parameters). While numerous studies have explored delta parameter properties
via operations like pruning, quantization, low-rank approximation, and
extrapolation, a unified framework for systematically examining these
characteristics has been lacking. In this paper, we propose a novel perspective
based on Riemann sum approximation of the loss function to elucidate delta
parameter editing operations. Our analysis categorizes existing methods into
three classes based on their post-editing performance: competitive, decreased,
and improved, explaining how they are expressed by the Riemann sum
approximation term and how they alter the model performance. Extensive
experiments on both visual and language models, including ViT, LLaMA 3, Qwen 2,
and Mistral, corroborate our theoretical findings. Furthermore, we introduce
extensions to existing techniques like DARE and BitDelta, highlighting their
limitations in leveraging the properties of delta parameters and reorganizing
them into general expressions to enhance the applicability and effectiveness of
delta parameter editing in post-trained models.Summary
AI-Generated Summary