NeuroAda: Ativando o Potencial de Cada Neurônio para Ajuste Fino Eficiente em Parâmetros

Resumo

Os métodos existentes de ajuste fino eficiente em parâmetros (PEFT) se enquadram principalmente em duas categorias: baseados em adição e adaptação seletiva in-situ. O primeiro, como o LoRA, introduz módulos adicionais para adaptar o modelo a tarefas subsequentes, oferecendo alta eficiência de memória. No entanto, sua capacidade de representação é frequentemente limitada, tornando-os menos adequados para adaptações refinadas. Em contraste, o segundo ajusta diretamente um subconjunto cuidadosamente escolhido dos parâmetros originais do modelo, permitindo uma adaptação mais precisa e eficaz, mas ao custo de um consumo de memória significativamente maior. Para conciliar essa compensação, propomos o NeuroAda, um novo método PEFT que permite o ajuste fino refinado do modelo enquanto mantém alta eficiência de memória. Nossa abordagem primeiro identifica parâmetros importantes (ou seja, conexões dentro da rede), como na adaptação seletiva, e então introduz conexões de desvio para esses parâmetros selecionados. Durante o ajuste fino, apenas as conexões de desvio são atualizadas, mantendo os parâmetros originais do modelo congelados. Resultados empíricos em mais de 23 tarefas, abrangendo tanto geração quanto compreensão de linguagem natural, demonstram que o NeuroAda alcança desempenho de ponta com apenas ≤ 0,02% dos parâmetros treináveis, enquanto reduz o uso de memória CUDA em até 60%. Disponibilizamos nosso código aqui: https://github.com/FightingFighting/NeuroAda.git.

English

Existing parameter-efficient fine-tuning (PEFT) methods primarily fall into two categories: addition-based and selective in-situ adaptation. The former, such as LoRA, introduce additional modules to adapt the model to downstream tasks, offering strong memory efficiency. However, their representational capacity is often limited, making them less suitable for fine-grained adaptation. In contrast, the latter directly fine-tunes a carefully chosen subset of the original model parameters, allowing for more precise and effective adaptation, but at the cost of significantly increased memory consumption. To reconcile this trade-off, we propose NeuroAda, a novel PEFT method that enables fine-grained model finetuning while maintaining high memory efficiency. Our approach first identifies important parameters (i.e., connections within the network) as in selective adaptation, and then introduces bypass connections for these selected parameters. During finetuning, only the bypass connections are updated, leaving the original model parameters frozen. Empirical results on 23+ tasks spanning both natural language generation and understanding demonstrate that NeuroAda achieves state-of-the-art performance with as little as leq 0.02% trainable parameters, while reducing CUDA memory usage by up to 60%. We release our code here: https://github.com/FightingFighting/NeuroAda.git.