Концептуальные слайдеры: LoRA-адаптеры для точного управления в диффузионных моделях
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
November 20, 2023
Авторы: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI
Аннотация
Мы представляем метод создания интерпретируемых слайдеров концепций, которые обеспечивают точный контроль над атрибутами в генерации изображений с использованием диффузионных моделей. Наш подход выявляет низкоранговое направление параметров, соответствующее одной концепции, при этом минимизируя влияние на другие атрибуты. Слайдер создается с использованием небольшого набора текстовых запросов или примеров изображений, что позволяет создавать направления для как текстовых, так и визуальных концепций. Слайдеры концепций являются модульными: они могут эффективно комбинироваться и непрерывно регулироваться, обеспечивая точный контроль над генерацией изображений. В количественных экспериментах, сравнивающих с предыдущими методами редактирования, наши слайдеры демонстрируют более целенаправленные изменения с меньшим уровнем вмешательства. Мы демонстрируем слайдеры для погоды, возраста, стилей и выражений, а также их композиции. Мы показываем, как слайдеры могут переносить латентные переменные из StyleGAN для интуитивного редактирования визуальных концепций, которые сложно описать текстуально. Также мы обнаруживаем, что наш метод может помочь в решении устойчивых проблем качества в Stable Diffusion XL, включая исправление деформаций объектов и искаженных рук. Наш код, данные и обученные слайдеры доступны по адресу https://sliders.baulab.info/.
English
We present a method to create interpretable concept sliders that enable
precise control over attributes in image generations from diffusion models. Our
approach identifies a low-rank parameter direction corresponding to one concept
while minimizing interference with other attributes. A slider is created using
a small set of prompts or sample images; thus slider directions can be created
for either textual or visual concepts. Concept Sliders are plug-and-play: they
can be composed efficiently and continuously modulated, enabling precise
control over image generation. In quantitative experiments comparing to
previous editing techniques, our sliders exhibit stronger targeted edits with
lower interference. We showcase sliders for weather, age, styles, and
expressions, as well as slider compositions. We show how sliders can transfer
latents from StyleGAN for intuitive editing of visual concepts for which
textual description is difficult. We also find that our method can help address
persistent quality issues in Stable Diffusion XL including repair of object
deformations and fixing distorted hands. Our code, data, and trained sliders
are available at https://sliders.baulab.info/