ShadowPEFT: Red de en la Sombra para el Ajuste Fino Eficiente en Parámetros

Resumen

El fine-tuning eficiente en parámetros (PEFT) reduce el coste de entrenamiento del fine-tuning de parámetros completos para modelos de lenguaje grandes (LLMs) entrenando solo un pequeño conjunto de parámetros específicos de la tarea mientras se congela la red preentrenada. Sin embargo, los enfoques existentes, como la Adaptación de Bajo Rango (LoRA), logran la adaptación insertando perturbaciones de bajo rango independientes directamente en pesos individuales, lo que resulta en una parametrización local de la adaptación. Proponemos ShadowPEFT, un marco PEFT centralizado que, en cambio, realiza un refinamiento a nivel de capa a través de un módulo sombra compartido en profundidad. En cada capa del transformador, ShadowPEFT mantiene un estado sombra paralelo y lo evoluciona repetidamente para obtener estados ocultos progresivamente más ricos. Este diseño cambia la adaptación de perturbaciones distribuidas en el espacio de pesos a un proceso de refinamiento compartido en el espacio de capas. Dado que el módulo sombra está desacoplado de la red principal, puede reutilizarse a través de las capas, preentrenarse de forma independiente y desplegarse opcionalmente en modo desvinculado, beneficiando a los escenarios de computación periférica. Los experimentos en benchmarks de generación y comprensión muestran que ShadowPEFT iguala o supera a LoRA y DoRA con presupuestos comparables de parámetros entrenables. Análisis adicionales sobre preentrenamiento sombra, transferencia cruzada entre conjuntos de datos, escalado de parámetros, latencia de inferencia y evaluación a nivel de sistema sugieren que la adaptación centralizada en el espacio de capas es una alternativa competitiva y flexible a los métodos PEFT de bajo rango convencionales.

English

Parameter-efficient fine-tuning (PEFT) reduces the training cost of full-parameter fine-tuning for large language models (LLMs) by training only a small set of task-specific parameters while freezing the pretrained backbone. However, existing approaches, such as Low-Rank Adaptation (LoRA), achieve adaptation by inserting independent low-rank perturbations directly to individual weights, resulting in a local parameterization of adaptation. We propose ShadowPEFT, a centralized PEFT framework that instead performs layer-level refinement through a depth-shared shadow module. At each transformer layer, ShadowPEFT maintains a parallel shadow state and evolves it repeatedly for progressively richer hidden states. This design shifts adaptation from distributed weight-space perturbations to a shared layer-space refinement process. Since the shadow module is decoupled from the backbone, it can be reused across depth, independently pretrained, and optionally deployed in a detached mode, benefiting edge computing scenarios. Experiments on generation and understanding benchmarks show that ShadowPEFT matches or outperforms LoRA and DoRA under comparable trainable-parameter budgets. Additional analyses on shadow pretraining, cross-dataset transfer, parameter scaling, inference latency, and system-level evaluation suggest that centralized layer-space adaptation is a competitive and flexible alternative to conventional low-rank PEFT.

ShadowPEFT: Red de en la Sombra para el Ajuste Fino Eficiente en Parámetros

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Resumen

Support