Concept Sliders: LoRA-Adapter für präzise Steuerung in Diffusionsmodellen
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
November 20, 2023
Autoren: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI
Zusammenfassung
Wir präsentieren eine Methode zur Erstellung interpretierbarer Konzept-Schieberegler, die eine präzise Steuerung von Attributen in Bildgenerierungen aus Diffusionsmodellen ermöglichen. Unser Ansatz identifiziert eine niedrigrangige Parameterrichtung, die einem Konzept entspricht, während die Interferenz mit anderen Attributen minimiert wird. Ein Schieberegler wird mit einer kleinen Menge von Prompts oder Beispielbildern erstellt; somit können Schieberegler-Richtungen sowohl für textuelle als auch visuelle Konzepte erzeugt werden. Konzept-Schieberegler sind Plug-and-Play: Sie können effizient kombiniert und kontinuierlich moduliert werden, was eine präzise Steuerung der Bildgenerierung ermöglicht. In quantitativen Experimenten im Vergleich zu früheren Bearbeitungstechniken zeigen unsere Schieberegler gezieltere Bearbeitungen mit geringerer Interferenz. Wir demonstrieren Schieberegler für Wetter, Alter, Stile und Ausdrücke sowie Schieberegler-Kompositionen. Wir zeigen, wie Schieberegler Latents aus StyleGAN übertragen können, um eine intuitive Bearbeitung visueller Konzepte zu ermöglichen, für die eine textuelle Beschreibung schwierig ist. Wir stellen außerdem fest, dass unsere Methode dazu beitragen kann, anhaltende Qualitätsprobleme in Stable Diffusion XL zu beheben, einschließlich der Reparatur von Objektverformungen und der Korrektur verzerrter Hände. Unser Code, Daten und trainierte Schieberegler sind unter https://sliders.baulab.info/ verfügbar.
English
We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/