ChatPaper.aiChatPaper

Deslizadores de Conceptos: Adaptadores LoRA para Control Preciso en Modelos de Difusión

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

November 20, 2023
Autores: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI

Resumen

Presentamos un método para crear controles deslizantes de conceptos interpretables que permiten un control preciso sobre atributos en generaciones de imágenes a partir de modelos de difusión. Nuestro enfoque identifica una dirección de parámetros de bajo rango correspondiente a un concepto mientras minimiza la interferencia con otros atributos. Un control deslizante se crea utilizando un pequeño conjunto de indicaciones o imágenes de muestra; por lo tanto, las direcciones de los controles deslizantes pueden crearse tanto para conceptos textuales como visuales. Los Controles Deslizantes de Conceptos son plug-and-play: pueden componerse de manera eficiente y modularse continuamente, permitiendo un control preciso sobre la generación de imágenes. En experimentos cuantitativos comparados con técnicas de edición anteriores, nuestros controles deslizantes muestran ediciones más específicas con menor interferencia. Mostramos controles deslizantes para clima, edad, estilos y expresiones, así como composiciones de controles deslizantes. Demostramos cómo los controles deslizantes pueden transferir latentes de StyleGAN para una edición intuitiva de conceptos visuales para los cuales la descripción textual es difícil. También encontramos que nuestro método puede ayudar a abordar problemas persistentes de calidad en Stable Diffusion XL, incluyendo la reparación de deformaciones de objetos y la corrección de manos distorsionadas. Nuestro código, datos y controles deslizantes entrenados están disponibles en https://sliders.baulab.info/.
English
We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/
PDF234December 15, 2024