Concept Schuifregelaars: LoRA-adapters voor precieze controle in diffusiemodellen
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
November 20, 2023
Auteurs: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI
Samenvatting
We presenteren een methode om interpreteerbare concept schuifregelaars te creëren die precieze controle mogelijk maken over attributen in beeldgeneraties van diffusiemodellen. Onze aanpak identificeert een richting met lage rang in de parameters die overeenkomt met één concept, terwijl interferentie met andere attributen wordt geminimaliseerd. Een schuifregelaar wordt gemaakt met behulp van een kleine set prompts of voorbeeldbeelden; zo kunnen schuifregelaarrichtingen worden gemaakt voor zowel tekstuele als visuele concepten. Concept Schuifregelaars zijn plug-and-play: ze kunnen efficiënt worden samengesteld en continu worden gemoduleerd, wat precieze controle over beeldgeneratie mogelijk maakt. In kwantitatieve experimenten in vergelijking met eerdere bewerkingstechnieken, tonen onze schuifregelaars sterkere gerichte bewerkingen met minder interferentie. We demonstreren schuifregelaars voor weer, leeftijd, stijlen en uitdrukkingen, evenals samenstellingen van schuifregelaars. We laten zien hoe schuifregelaars latenties van StyleGAN kunnen overbrengen voor intuïtieve bewerking van visuele concepten waarvoor tekstuele beschrijving moeilijk is. We ontdekken ook dat onze methode kan helpen bij het aanpakken van hardnekkige kwaliteitsproblemen in Stable Diffusion XL, waaronder het herstellen van objectvervormingen en het corrigeren van vervormde handen. Onze code, gegevens en getrainde schuifregelaars zijn beschikbaar op https://sliders.baulab.info/
English
We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/