Настройка моделей текст в изображение с помощью одной пары изображений
Customizing Text-to-Image Models with a Single Image Pair
May 2, 2024
Авторы: Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu
cs.AI
Аннотация
Переинтерпретация искусства - это практика создания вариации исходного произведения, создание парного произведения, демонстрирующего отличный художественный стиль. Мы исследуем, можно ли использовать такую пару изображений для настройки генеративной модели на улавливание показанного стилевого различия. Мы предлагаем метод Парной Настройки, новый метод настройки, который изучает стилевое различие на основе одной пары изображений, а затем применяет усвоенный стиль к процессу генерации. В отличие от существующих методов, которые учатся имитировать один концепт из коллекции изображений, наш метод улавливает стилевое различие между парами изображений. Это позволяет нам применять стилевые изменения, не переобучаясь на конкретном содержании изображений в примерах. Для решения этой новой задачи мы используем метод совместной оптимизации, который явно разделяет стиль и содержание на различные пространства весов LoRA. Мы оптимизируем эти веса стиля и содержания для воспроизведения стилевых и содержательных изображений, содействуя их ортогональности. Во время вывода мы модифицируем процесс диффузии с помощью нового стилевого руководства на основе наших изученных весов. Качественные и количественные эксперименты показывают, что наш метод может эффективно изучать стиль, избегая переобучения на содержании изображения, подчеркивая потенциал моделирования таких стилевых различий на основе одной пары изображений.
English
Art reinterpretation is the practice of creating a variation of a reference
work, making a paired artwork that exhibits a distinct artistic style. We ask
if such an image pair can be used to customize a generative model to capture
the demonstrated stylistic difference. We propose Pair Customization, a new
customization method that learns stylistic difference from a single image pair
and then applies the acquired style to the generation process. Unlike existing
methods that learn to mimic a single concept from a collection of images, our
method captures the stylistic difference between paired images. This allows us
to apply a stylistic change without overfitting to the specific image content
in the examples. To address this new task, we employ a joint optimization
method that explicitly separates the style and content into distinct LoRA
weight spaces. We optimize these style and content weights to reproduce the
style and content images while encouraging their orthogonality. During
inference, we modify the diffusion process via a new style guidance based on
our learned weights. Both qualitative and quantitative experiments show that
our method can effectively learn style while avoiding overfitting to image
content, highlighting the potential of modeling such stylistic differences from
a single image pair.Summary
AI-Generated Summary