ShadowPEFT: Теневая сеть для параметрически эффективной тонкой настройки

Аннотация

Параметрически-эффективное тонкое настройка (PEFT) снижает стоимость обучения полнопараметрической настройки больших языковых моделей (LLM) путем обучения лишь небольшого набора специфичных для задачи параметров при замороженном предобученном ядре. Однако существующие подходы, такие как LoRA (Low-Rank Adaptation), достигают адаптации путем вставки независимых низкоранговых возмущений непосредственно к отдельным весам, что приводит к локальной параметризации адаптации. Мы предлагаем ShadowPEFT — централизованную PEFT-архитектуру, которая вместо этого выполняет послойное уточнение через разделяемый по глубине теневой модуль. На каждом трансформерном слое ShadowPEFT поддерживает параллельное теневое состояние и эволюционирует его многократно для получения прогрессивно обогащенных скрытых состояний. Данная конструкция смещает адаптацию от распределенных возмущений в пространстве весов к разделяемому процессу уточнения в пространстве слоев. Поскольку теневой модуль отделен от ядра, он может использоваться повторно по глубине, независимо предобучаться и опционально развертываться в автономном режиме, что выгодно для сценариев периферийных вычислений. Эксперименты на бенчмарках генерации и понимания показывают, что ShadowPEFT соответствует или превосходит LoRA и DoRA при сопоставимых бюджетах обучаемых параметров. Дополнительные анализы предобучения теневого модуля, межнаборного переноса, масштабирования параметров, задержки вывода и системной оценки свидетельствуют, что централизованная адаптация в пространстве слоев является конкурентоспособной и гибкой альтернативой традиционным низкоранговым PEFT-методам.

English

Parameter-efficient fine-tuning (PEFT) reduces the training cost of full-parameter fine-tuning for large language models (LLMs) by training only a small set of task-specific parameters while freezing the pretrained backbone. However, existing approaches, such as Low-Rank Adaptation (LoRA), achieve adaptation by inserting independent low-rank perturbations directly to individual weights, resulting in a local parameterization of adaptation. We propose ShadowPEFT, a centralized PEFT framework that instead performs layer-level refinement through a depth-shared shadow module. At each transformer layer, ShadowPEFT maintains a parallel shadow state and evolves it repeatedly for progressively richer hidden states. This design shifts adaptation from distributed weight-space perturbations to a shared layer-space refinement process. Since the shadow module is decoupled from the backbone, it can be reused across depth, independently pretrained, and optionally deployed in a detached mode, benefiting edge computing scenarios. Experiments on generation and understanding benchmarks show that ShadowPEFT matches or outperforms LoRA and DoRA under comparable trainable-parameter budgets. Additional analyses on shadow pretraining, cross-dataset transfer, parameter scaling, inference latency, and system-level evaluation suggest that centralized layer-space adaptation is a competitive and flexible alternative to conventional low-rank PEFT.

ShadowPEFT: Теневая сеть для параметрически эффективной тонкой настройки

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Аннотация

Support