Slider Concettuali: Adattatori LoRA per un Controllo Preciso nei Modelli di Diffusione
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
November 20, 2023
Autori: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI
Abstract
Presentiamo un metodo per creare cursori concettuali interpretabili che consentono un controllo preciso sugli attributi nelle generazioni di immagini da modelli di diffusione. Il nostro approccio identifica una direzione parametrica a basso rango corrispondente a un concetto, minimizzando al contempo l'interferenza con altri attributi. Un cursore viene creato utilizzando un piccolo insieme di prompt o immagini campione; pertanto, le direzioni dei cursori possono essere generate sia per concetti testuali che visivi. I Cursori Concettuali sono plug-and-play: possono essere composti in modo efficiente e modulati in modo continuo, consentendo un controllo preciso sulla generazione delle immagini. Negli esperimenti quantitativi rispetto alle precedenti tecniche di editing, i nostri cursori mostrano modifiche mirate più forti con un'interferenza inferiore. Mostriamo cursori per condizioni meteorologiche, età, stili ed espressioni, nonché composizioni di cursori. Dimostriamo come i cursori possano trasferire latenti da StyleGAN per un editing intuitivo di concetti visivi per i quali la descrizione testuale è difficile. Troviamo inoltre che il nostro metodo può aiutare a risolvere problemi di qualità persistenti in Stable Diffusion XL, inclusa la riparazione di deformazioni degli oggetti e la correzione di mani distorte. Il nostro codice, dati e cursori addestrati sono disponibili all'indirizzo https://sliders.baulab.info/.
English
We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/