ShadowPEFT: Schaduw Netwerk voor Parameter-Efficiënte Fine-Tuning

Samenvatting

Parameter-efficiënte fine-tuning (PEFT) verlaagt de trainingskosten van volledige-parameter fine-tuning voor grote taalmodel(len) (LLM's) door alleen een kleine set taakspecifieke parameters te trainen, terwijl het voorgetrainde model wordt bevroren. Bestaande benaderingen, zoals Low-Rank Adaptation (LoRA), bereiken adaptatie echter door onafhankelijke laag-rang verstoringen rechtstreeks in individuele gewichten in te voegen, wat resulteert in een lokale parameterisatie van adaptatie. Wij stellen ShadowPEFT voor, een gecentraliseerd PEFT-raamwerk dat in plaats daarvan laagniveau-verfijning uitvoert via een diepte-gedeelde schaduwmodule. Op elke transformerlaag houdt ShadowPEFT een parallelle schaduwstatus aan en evolueert deze herhaaldelijk voor progressief rijkere verborgen toestanden. Dit ontwerp verschuift adaptatie van gedistribueerde gewichtsruimte-verstoringen naar een gedeeld laagruimte-verfijningsproces. Omdat de schaduwmodule is ontkoppeld van de backbone, kan deze hergebruikt worden over de diepte, onafhankelijk voorgetraind worden, en optioneel worden ingezet in een losgekoppelde modus, wat voordelig is voor edge computing-scenario's. Experimenten op generatie- en begripsbenchmarks tonen aan dat ShadowPEFT evenaart of overtreft prestaties van LoRA en DoRA onder vergelijkbare trainbare-parameterbudgetten. Aanvullende analyses van schaduw-voortraining, kruis-datasettransfer, parameterschaling, inferentielatentie en systeemniveau-evaluatie suggereren dat gecentraliseerde laagruimte-adaptatie een competitief en flexibel alternatief is voor conventionele laag-rang PEFT.

English

Parameter-efficient fine-tuning (PEFT) reduces the training cost of full-parameter fine-tuning for large language models (LLMs) by training only a small set of task-specific parameters while freezing the pretrained backbone. However, existing approaches, such as Low-Rank Adaptation (LoRA), achieve adaptation by inserting independent low-rank perturbations directly to individual weights, resulting in a local parameterization of adaptation. We propose ShadowPEFT, a centralized PEFT framework that instead performs layer-level refinement through a depth-shared shadow module. At each transformer layer, ShadowPEFT maintains a parallel shadow state and evolves it repeatedly for progressively richer hidden states. This design shifts adaptation from distributed weight-space perturbations to a shared layer-space refinement process. Since the shadow module is decoupled from the backbone, it can be reused across depth, independently pretrained, and optionally deployed in a detached mode, benefiting edge computing scenarios. Experiments on generation and understanding benchmarks show that ShadowPEFT matches or outperforms LoRA and DoRA under comparable trainable-parameter budgets. Additional analyses on shadow pretraining, cross-dataset transfer, parameter scaling, inference latency, and system-level evaluation suggest that centralized layer-space adaptation is a competitive and flexible alternative to conventional low-rank PEFT.

ShadowPEFT: Schaduw Netwerk voor Parameter-Efficiënte Fine-Tuning

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Samenvatting

Support