Concept Schuifregelaars: LoRA-adapters voor precieze controle in diffusiemodellen

Samenvatting

We presenteren een methode om interpreteerbare concept schuifregelaars te creëren die precieze controle mogelijk maken over attributen in beeldgeneraties van diffusiemodellen. Onze aanpak identificeert een richting met lage rang in de parameters die overeenkomt met één concept, terwijl interferentie met andere attributen wordt geminimaliseerd. Een schuifregelaar wordt gemaakt met behulp van een kleine set prompts of voorbeeldbeelden; zo kunnen schuifregelaarrichtingen worden gemaakt voor zowel tekstuele als visuele concepten. Concept Schuifregelaars zijn plug-and-play: ze kunnen efficiënt worden samengesteld en continu worden gemoduleerd, wat precieze controle over beeldgeneratie mogelijk maakt. In kwantitatieve experimenten in vergelijking met eerdere bewerkingstechnieken, tonen onze schuifregelaars sterkere gerichte bewerkingen met minder interferentie. We demonstreren schuifregelaars voor weer, leeftijd, stijlen en uitdrukkingen, evenals samenstellingen van schuifregelaars. We laten zien hoe schuifregelaars latenties van StyleGAN kunnen overbrengen voor intuïtieve bewerking van visuele concepten waarvoor tekstuele beschrijving moeilijk is. We ontdekken ook dat onze methode kan helpen bij het aanpakken van hardnekkige kwaliteitsproblemen in Stable Diffusion XL, waaronder het herstellen van objectvervormingen en het corrigeren van vervormde handen. Onze code, gegevens en getrainde schuifregelaars zijn beschikbaar op https://sliders.baulab.info/

English

We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/

Concept Schuifregelaars: LoRA-adapters voor precieze controle in diffusiemodellen

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

Samenvatting

Support