Deslizadores de Conceitos: Adaptadores LoRA para Controle Preciso em Modelos de Difusão
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
November 20, 2023
Autores: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI
Resumo
Apresentamos um método para criar controles deslizantes de conceitos interpretáveis que permitem um controle preciso sobre atributos em gerações de imagens a partir de modelos de difusão. Nossa abordagem identifica uma direção de parâmetro de baixa classificação correspondente a um conceito, enquanto minimiza a interferência com outros atributos. Um controle deslizante é criado usando um pequeno conjunto de prompts ou imagens de exemplo; assim, as direções dos controles deslizantes podem ser criadas tanto para conceitos textuais quanto visuais. Os Controles Deslizantes de Conceitos são plug-and-play: eles podem ser compostos de forma eficiente e modulados continuamente, permitindo um controle preciso sobre a geração de imagens. Em experimentos quantitativos comparados a técnicas de edição anteriores, nossos controles deslizantes exibem edições mais direcionadas com menor interferência. Mostramos controles deslizantes para clima, idade, estilos e expressões, bem como composições de controles deslizantes. Demonstramos como os controles deslizantes podem transferir latentes do StyleGAN para edição intuitiva de conceitos visuais para os quais a descrição textual é difícil. Também descobrimos que nosso método pode ajudar a resolver problemas persistentes de qualidade no Stable Diffusion XL, incluindo reparo de deformações de objetos e correção de mãos distorcidas. Nosso código, dados e controles deslizantes treinados estão disponíveis em https://sliders.baulab.info/
English
We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/