ChatPaper.aiChatPaper

Concept Sliders : Adaptateurs LoRA pour un contrôle précis dans les modèles de diffusion

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

November 20, 2023
papers.authors: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI

papers.abstract

Nous présentons une méthode pour créer des curseurs de concepts interprétables permettant un contrôle précis des attributs dans la génération d'images à partir de modèles de diffusion. Notre approche identifie une direction de paramètres de faible rang correspondant à un concept tout en minimisant l'interférence avec d'autres attributs. Un curseur est créé à l'aide d'un petit ensemble d'invites ou d'images d'exemple ; ainsi, les directions des curseurs peuvent être définies pour des concepts textuels ou visuels. Les curseurs de concepts sont plug-and-play : ils peuvent être composés efficacement et modulés de manière continue, permettant un contrôle précis de la génération d'images. Dans des expériences quantitatives comparées aux techniques d'édition précédentes, nos curseurs montrent des modifications ciblées plus fortes avec une interférence moindre. Nous présentons des curseurs pour le temps, l'âge, les styles et les expressions, ainsi que des compositions de curseurs. Nous montrons comment les curseurs peuvent transférer des latents de StyleGAN pour une édition intuitive de concepts visuels difficiles à décrire textuellement. Nous constatons également que notre méthode peut aider à résoudre des problèmes de qualité persistants dans Stable Diffusion XL, notamment la réparation des déformations d'objets et la correction des mains déformées. Notre code, données et curseurs entraînés sont disponibles à l'adresse https://sliders.baulab.info/
English
We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/
PDF234December 15, 2024