Desacoplamento de Ângulos e Força na Adaptação de Baixo Rank

Resumo

Os métodos de Fine-Tuning Eficiente em Parâmetros (PEFT, na sigla em inglês) ganharam recentemente popularidade significativa graças à ampla disponibilidade de modelos pré-treinados em grande escala. Esses métodos permitem uma rápida adaptação a tarefas subsequentes com um custo computacional mínimo. No entanto, métodos populares de fine-tuning, como o LoRA, apresentam robustez limitada quando se trata de escolhas de hiperparâmetros ou regimes de treinamento prolongados, impedindo um desempenho ideal imediato. Em contraste, abordagens limitadas, como o ETHER, oferecem maior robustez, mas estão restritas a adaptações de rank extremamente baixo e transformações de força fixa, reduzindo seu poder expressivo de adaptação. Neste trabalho, propomos a Adaptação de Baixo Rank Desacoplada (DeLoRA), um novo método de fine-tuning que normaliza e dimensiona matrizes de baixo rank aprendíveis. Ao limitar a distância da transformação, o DeLoRA efetivamente desacopla o aprendizado angular da força de adaptação, aumentando a robustez sem comprometer o desempenho. Por meio de avaliações em geração de imagens orientada por assunto, compreensão de linguagem natural e ajuste por instruções, mostramos que o DeLoRA iguala ou supera o desempenho de métodos PEFT concorrentes, ao mesmo tempo em que exibe maior robustez. O código está disponível em https://github.com/ExplainableML/DeLoRA.

English

Parameter-Efficient FineTuning (PEFT) methods have recently gained significant popularity thanks to the widespread availability of large-scale pretrained models. These methods allow for quick adaptation to downstream tasks with minimal computational cost. However, popular finetuning methods such as LoRA exhibit limited robustness when it comes to hyperparameter choices or extended training regimes, preventing optimal out-of-the-box performance. In contrast, bounded approaches, such as ETHER, provide greater robustness but are limited to extremely low-rank adaptations and fixed-strength transformations, reducing their adaptation expressive power. In this work, we propose Decoupled Low-rank Adaptation (DeLoRA), a novel finetuning method that normalizes and scales learnable low-rank matrices. By bounding the distance of the transformation, DeLoRA effectively decouples the angular learning from the adaptation strength, enhancing robustness without compromising performance. Through evaluations on subject-driven image generation, natural language understanding, and instruction tuning, we show that DeLoRA matches or surpasses performance of competing PEFT methods, while exhibiting stronger robustness. Code is available at https://github.com/ExplainableML/DeLoRA.

Desacoplamento de Ângulos e Força na Adaptação de Baixo Rank

Decoupling Angles and Strength in Low-rank Adaptation

Resumo

Support