NeuroAda: Activando el potencial de cada neurona para un ajuste fino eficiente en parámetros

Resumen

Los métodos existentes de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) se dividen principalmente en dos categorías: basados en adición y adaptación selectiva in situ. Los primeros, como LoRA, introducen módulos adicionales para adaptar el modelo a tareas específicas, ofreciendo una alta eficiencia de memoria. Sin embargo, su capacidad de representación suele ser limitada, lo que los hace menos adecuados para adaptaciones de grano fino. En contraste, los segundos ajustan directamente un subconjunto cuidadosamente seleccionado de los parámetros originales del modelo, permitiendo una adaptación más precisa y efectiva, pero a costa de un consumo de memoria significativamente mayor. Para reconciliar esta compensación, proponemos NeuroAda, un novedoso método PEFT que permite un ajuste fino de grano fino del modelo mientras mantiene una alta eficiencia de memoria. Nuestro enfoque primero identifica parámetros importantes (es decir, conexiones dentro de la red) como en la adaptación selectiva, y luego introduce conexiones de derivación para estos parámetros seleccionados. Durante el ajuste fino, solo se actualizan las conexiones de derivación, dejando congelados los parámetros originales del modelo. Los resultados empíricos en más de 23 tareas que abarcan tanto la generación como la comprensión del lenguaje natural demuestran que NeuroAda alcanza un rendimiento de vanguardia con tan solo ≤ 0.02% de parámetros entrenables, mientras reduce el uso de memoria CUDA hasta en un 60%. Publicamos nuestro código aquí: https://github.com/FightingFighting/NeuroAda.git.

English

Existing parameter-efficient fine-tuning (PEFT) methods primarily fall into two categories: addition-based and selective in-situ adaptation. The former, such as LoRA, introduce additional modules to adapt the model to downstream tasks, offering strong memory efficiency. However, their representational capacity is often limited, making them less suitable for fine-grained adaptation. In contrast, the latter directly fine-tunes a carefully chosen subset of the original model parameters, allowing for more precise and effective adaptation, but at the cost of significantly increased memory consumption. To reconcile this trade-off, we propose NeuroAda, a novel PEFT method that enables fine-grained model finetuning while maintaining high memory efficiency. Our approach first identifies important parameters (i.e., connections within the network) as in selective adaptation, and then introduces bypass connections for these selected parameters. During finetuning, only the bypass connections are updated, leaving the original model parameters frozen. Empirical results on 23+ tasks spanning both natural language generation and understanding demonstrate that NeuroAda achieves state-of-the-art performance with as little as leq 0.02% trainable parameters, while reducing CUDA memory usage by up to 60%. We release our code here: https://github.com/FightingFighting/NeuroAda.git.