InstantStyle: бесплатный обед в сторону сохранения стиля в текст-в-изображение генерации
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
April 3, 2024
Авторы: Haofan Wang, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen
cs.AI
Аннотация
Модели на основе диффузии без настройки продемонстрировали значительный потенциал в области персонализации и настройки изображений. Однако, несмотря на значительный прогресс, текущие модели продолжают бороться с несколькими сложными проблемами в создании стильно-согласованной генерации изображений. Во-первых, концепция стиля по своей природе недоопределена, охватывая множество элементов, таких как цвет, материал, атмосфера, дизайн и структура, среди прочих. Во-вторых, методы на основе инверсии подвержены деградации стиля, часто приводя к потере мелких деталей. Наконец, подходы на основе адаптеров часто требуют тщательной настройки весов для каждого опорного изображения, чтобы достичь баланса между интенсивностью стиля и управляемостью текста. В данной статье мы начинаем с рассмотрения нескольких убедительных, но часто пренебрегаемых наблюдений. Затем мы переходим к представлению InstantStyle, фреймворка, разработанного для решения этих проблем путем реализации двух ключевых стратегий: 1) Простой механизм, который разделяет стиль и контент от опорных изображений в пространстве признаков, основанный на предположении, что признаки в одном и том же пространстве могут быть либо добавлены, либо вычтены друг из друга. 2) Внедрение признаков опорного изображения исключительно в блоки, специфичные для стиля, тем самым предотвращая утечки стиля и избегая необходимости громоздкой настройки весов, которая часто характеризует более параметрически насыщенные конструкции. Наша работа демонстрирует превосходные результаты визуальной стилизации, достигая оптимального баланса между интенсивностью стиля и управляемостью текстовых элементов. Наш код будет доступен по адресу https://github.com/InstantStyle/InstantStyle.
English
Tuning-free diffusion-based models have demonstrated significant potential in
the realm of image personalization and customization. However, despite this
notable progress, current models continue to grapple with several complex
challenges in producing style-consistent image generation. Firstly, the concept
of style is inherently underdetermined, encompassing a multitude of elements
such as color, material, atmosphere, design, and structure, among others.
Secondly, inversion-based methods are prone to style degradation, often
resulting in the loss of fine-grained details. Lastly, adapter-based approaches
frequently require meticulous weight tuning for each reference image to achieve
a balance between style intensity and text controllability. In this paper, we
commence by examining several compelling yet frequently overlooked
observations. We then proceed to introduce InstantStyle, a framework designed
to address these issues through the implementation of two key strategies: 1) A
straightforward mechanism that decouples style and content from reference
images within the feature space, predicated on the assumption that features
within the same space can be either added to or subtracted from one another. 2)
The injection of reference image features exclusively into style-specific
blocks, thereby preventing style leaks and eschewing the need for cumbersome
weight tuning, which often characterizes more parameter-heavy designs.Our work
demonstrates superior visual stylization outcomes, striking an optimal balance
between the intensity of style and the controllability of textual elements. Our
codes will be available at https://github.com/InstantStyle/InstantStyle.Summary
AI-Generated Summary