Nicht alle Schichten sind gleichwertig: Adaptive LoRA-Ränge für personalisierte Bildgenerierung

Zusammenfassung

Low Rank Adaptation (LoRA) ist die de-facto Feinabstimmungsstrategie, um personalisierte Bilder aus vortrainierten Diffusionsmodellen zu generieren. Die Wahl eines geeigneten Rangs ist äußerst entscheidend, da sie einen Kompromiss zwischen Leistung und Speicherverbrauch darstellt. Heutzutage wird diese Entscheidung jedoch oft dem Konsens der Community überlassen, ungeachtet der Komplexität des personalisierten Motivs. Der Grund liegt auf der Hand: Die Kosten für die Auswahl eines guten Rangs für jede LoRA-Komponente sind kombinatorisch, weshalb wir auf praktische Abkürzungen zurückgreifen, wie etwa die Festlegung des gleichen Rangs für alle Komponenten. In dieser Arbeit unternehmen wir einen ersten Schritt, um diese Herausforderung zu bewältigen. Inspiriert von variationsbasierten Methoden, die eine adaptive Breite von neuronalen Netzen lernen, lassen wir die Ränge jeder Schicht während der Feinabstimmung an ein Motiv frei adaptieren. Wir erreichen dies, indem wir eine Ordnung der Wichtigkeit auf die Positionen des Rangs aufzwingen und so effektiv die Bildung höherer Ränge fördern, wenn sie strikt erforderlich sind. Qualitativ und quantitativ erreicht unser Ansatz, LoRA^2, einen wettbewerbsfähigen Kompromiss zwischen DINO, CLIP-I und CLIP-T über 29 Motive hinweg, während er deutlich weniger Speicher und einen niedrigeren Rang als Hochrang-LoRA-Versionen benötigt. Code: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

English

Low Rank Adaptation (LoRA) is the de facto fine-tuning strategy to generate personalized images from pre-trained diffusion models. Choosing a good rank is extremely critical, since it trades off performance and memory consumption, but today the decision is often left to the community's consensus, regardless of the personalized subject's complexity. The reason is evident: the cost of selecting a good rank for each LoRA component is combinatorial, so we opt for practical shortcuts such as fixing the same rank for all components. In this paper, we take a first step to overcome this challenge. Inspired by variational methods that learn an adaptive width of neural networks, we let the ranks of each layer freely adapt during fine-tuning on a subject. We achieve it by imposing an ordering of importance on the rank's positions, effectively encouraging the creation of higher ranks when strictly needed. Qualitatively and quantitatively, our approach, LoRA^2, achieves a competitive trade-off between DINO, CLIP-I, and CLIP-T across 29 subjects while requiring much less memory and lower rank than high rank LoRA versions. Code: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.

Nicht alle Schichten sind gleichwertig: Adaptive LoRA-Ränge für personalisierte Bildgenerierung

Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

Zusammenfassung

Support