ChatPaper.aiChatPaper

Концептуальные слайдеры: LoRA-адаптеры для точного управления в диффузионных моделях

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

November 20, 2023
Авторы: Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau
cs.AI

Аннотация

Мы представляем метод создания интерпретируемых слайдеров концепций, которые обеспечивают точный контроль над атрибутами в генерации изображений с использованием диффузионных моделей. Наш подход выявляет низкоранговое направление параметров, соответствующее одной концепции, при этом минимизируя влияние на другие атрибуты. Слайдер создается с использованием небольшого набора текстовых запросов или примеров изображений, что позволяет создавать направления для как текстовых, так и визуальных концепций. Слайдеры концепций являются модульными: они могут эффективно комбинироваться и непрерывно регулироваться, обеспечивая точный контроль над генерацией изображений. В количественных экспериментах, сравнивающих с предыдущими методами редактирования, наши слайдеры демонстрируют более целенаправленные изменения с меньшим уровнем вмешательства. Мы демонстрируем слайдеры для погоды, возраста, стилей и выражений, а также их композиции. Мы показываем, как слайдеры могут переносить латентные переменные из StyleGAN для интуитивного редактирования визуальных концепций, которые сложно описать текстуально. Также мы обнаруживаем, что наш метод может помочь в решении устойчивых проблем качества в Stable Diffusion XL, включая исправление деформаций объектов и искаженных рук. Наш код, данные и обученные слайдеры доступны по адресу https://sliders.baulab.info/.
English
We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/
PDF234December 15, 2024