Slider Concettuali: Adattatori LoRA per un Controllo Preciso nei Modelli di Diffusione

Abstract

Presentiamo un metodo per creare cursori concettuali interpretabili che consentono un controllo preciso sugli attributi nelle generazioni di immagini da modelli di diffusione. Il nostro approccio identifica una direzione parametrica a basso rango corrispondente a un concetto, minimizzando al contempo l'interferenza con altri attributi. Un cursore viene creato utilizzando un piccolo insieme di prompt o immagini campione; pertanto, le direzioni dei cursori possono essere generate sia per concetti testuali che visivi. I Cursori Concettuali sono plug-and-play: possono essere composti in modo efficiente e modulati in modo continuo, consentendo un controllo preciso sulla generazione delle immagini. Negli esperimenti quantitativi rispetto alle precedenti tecniche di editing, i nostri cursori mostrano modifiche mirate più forti con un'interferenza inferiore. Mostriamo cursori per condizioni meteorologiche, età, stili ed espressioni, nonché composizioni di cursori. Dimostriamo come i cursori possano trasferire latenti da StyleGAN per un editing intuitivo di concetti visivi per i quali la descrizione testuale è difficile. Troviamo inoltre che il nostro metodo può aiutare a risolvere problemi di qualità persistenti in Stable Diffusion XL, inclusa la riparazione di deformazioni degli oggetti e la correzione di mani distorte. Il nostro codice, dati e cursori addestrati sono disponibili all'indirizzo https://sliders.baulab.info/.

English

We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/

Slider Concettuali: Adattatori LoRA per un Controllo Preciso nei Modelli di Diffusione

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

Abstract

Support