ShadowPEFT: Schattennetzwerk für parameter-effizientes Feintuning

Zusammenfassung

Parameter-effizientes Fine-Tuning (PEFT) reduziert die Trainingskosten der Full-Parameter-Feinabstimmung für große Sprachmodelle (LLMs), indem nur ein kleiner Satz aufgabenspezifischer Parameter trainiert wird, während das vortrainierte Backbone eingefroren bleibt. Bisherige Ansätze wie Low-Rank Adaptation (LoRA) erreichen die Anpassung jedoch durch das direkte Einfügen unabhängiger niedrigrangiger Störungen in einzelne Gewichte, was zu einer lokalen Parametrisierung der Adaptation führt. Wir schlagen ShadowPEFT vor, einen zentralisierten PEFT-Rahmen, der stattdessen eine Ebenen-verfeinerung durch ein tiefengeteiltes Schattenmodul durchführt. Auf jeder Transformer-Ebene verwaltet ShadowPEFT einen parallelen Schattenzustand und entwickelt diesen wiederholt für progressively reichhaltigere versteckte Zustände weiter. Dieser Ansatz verlagert die Adaptation von verteilten Gewichtsraum-Störungen zu einem gemeinsamen Ebenenraum-Verfeinerungsprozess. Da das Schattenmodul vom Backbone entkoppelt ist, kann es tiefenübergreifend wiederverwendet, unabhängig vortrainiert und optional in einem abgetrennten Modus eingesetzt werden, was Edge-Computing-Szenarien zugutekommt. Experimente auf Generierungs- und Verständnis-Benchmarks zeigen, dass ShadowPEFT bei vergleichbaren Budgets an trainierbaren Parametern mit LoRA und DoRA gleichzieht oder diese übertrifft. Zusätzliche Analysen zu Schatten-Vortraining, datenübergreifendem Transfer, Parameterskalierung, Inferenzlatenz und systemweiter Evaluation legen nahe, dass zentralisierte Ebenenraum-Adaptation eine wettbewerbsfähige und flexible Alternative zu konventionellem Low-Rank-PEFT darstellt.

English

Parameter-efficient fine-tuning (PEFT) reduces the training cost of full-parameter fine-tuning for large language models (LLMs) by training only a small set of task-specific parameters while freezing the pretrained backbone. However, existing approaches, such as Low-Rank Adaptation (LoRA), achieve adaptation by inserting independent low-rank perturbations directly to individual weights, resulting in a local parameterization of adaptation. We propose ShadowPEFT, a centralized PEFT framework that instead performs layer-level refinement through a depth-shared shadow module. At each transformer layer, ShadowPEFT maintains a parallel shadow state and evolves it repeatedly for progressively richer hidden states. This design shifts adaptation from distributed weight-space perturbations to a shared layer-space refinement process. Since the shadow module is decoupled from the backbone, it can be reused across depth, independently pretrained, and optionally deployed in a detached mode, benefiting edge computing scenarios. Experiments on generation and understanding benchmarks show that ShadowPEFT matches or outperforms LoRA and DoRA under comparable trainable-parameter budgets. Additional analyses on shadow pretraining, cross-dataset transfer, parameter scaling, inference latency, and system-level evaluation suggest that centralized layer-space adaptation is a competitive and flexible alternative to conventional low-rank PEFT.

ShadowPEFT: Schattennetzwerk für parameter-effizientes Feintuning

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Zusammenfassung

Support