Nem Todas as Camadas São Iguais: Dimensões Adaptáveis de LoRA para Geração Personalizada de Imagens

Resumo

A Adaptação de Baixa Classificação (LoRA) é a estratégia de ajuste fino padrão para gerar imagens personalizadas a partir de modelos de difusão pré-treinados. A escolha de uma boa classificação (rank) é extremamente crítica, uma vez que equilibra desempenho e consumo de memória, mas atualmente a decisão é frequentemente deixada para o consenso da comunidade, independentemente da complexidade do assunto personalizado. A razão é evidente: o custo para selecionar uma boa classificação para cada componente LoRA é combinatório, então optamos por atalhos práticos, como fixar a mesma classificação para todos os componentes. Neste artigo, damos um primeiro passo para superar este desafio. Inspirados por métodos variacionais que aprendem uma largura adaptativa de redes neurais, permitimos que as classificações de cada camada se adaptem livremente durante o ajuste fino em um assunto. Conseguimos isso impondo uma ordenação de importância nas posições da classificação, incentivando efetivamente a criação de classificações mais altas apenas quando estritamente necessário. Qualitativa e quantitativamente, nossa abordagem, LoRA^2, alcança um equilíbrio competitivo entre DINO, CLIP-I e CLIP-T em 29 assuntos, enquanto requer muito menos memória e uma classificação inferior em comparação com versões LoRA de alta classificação. Código: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

English

Low Rank Adaptation (LoRA) is the de facto fine-tuning strategy to generate personalized images from pre-trained diffusion models. Choosing a good rank is extremely critical, since it trades off performance and memory consumption, but today the decision is often left to the community's consensus, regardless of the personalized subject's complexity. The reason is evident: the cost of selecting a good rank for each LoRA component is combinatorial, so we opt for practical shortcuts such as fixing the same rank for all components. In this paper, we take a first step to overcome this challenge. Inspired by variational methods that learn an adaptive width of neural networks, we let the ranks of each layer freely adapt during fine-tuning on a subject. We achieve it by imposing an ordering of importance on the rank's positions, effectively encouraging the creation of higher ranks when strictly needed. Qualitatively and quantitatively, our approach, LoRA^2, achieves a competitive trade-off between DINO, CLIP-I, and CLIP-T across 29 subjects while requiring much less memory and lower rank than high rank LoRA versions. Code: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

Nem Todas as Camadas São Iguais: Dimensões Adaptáveis de LoRA para Geração Personalizada de Imagens

Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

Resumo

Support