CSGO: Композиция содержания и стиля в генерации изображений из текста
CSGO: Content-Style Composition in Text-to-Image Generation
August 29, 2024
Авторы: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI
Аннотация
Модель диффузии продемонстрировала исключительные возможности в управляемой генерации изображений, что дополнительно стимулировало интерес к переносу стиля изображений. Существующие работы в основном сосредоточены на обучении методов, не требующих данных (например, инверсии изображений), из-за недостатка специфических данных. В данном исследовании мы представляем конвейер создания данных для триплетов изображений "контент-стиль-стилизованное изображение", который генерирует и автоматически очищает стилизованные триплеты данных. На основе этого конвейера мы создаем набор данных IMAGStyle, первый крупномасштабный набор данных для переноса стиля, содержащий 210 тысяч триплетов изображений, доступный для изучения и исследований сообществом. Оснащенные IMAGStyle, мы предлагаем CSGO, модель переноса стиля, основанную на сквозном обучении, которая явно разделяет признаки контента и стиля с использованием независимой инъекции признаков. Унифицированный CSGO реализует перенос стиля на основе изображений, синтез стилизованных изображений на основе текста и синтез стилизованных изображений на основе редактирования текста. Многочисленные эксперименты демонстрируют эффективность нашего подхода в улучшении возможностей управления стилем при генерации изображений. Дополнительная визуализация и доступ к исходному коду доступны на странице проекта: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image
generation, which has further fueled interest in image style transfer. Existing
works mainly focus on training free-based methods (e.g., image inversion) due
to the scarcity of specific data. In this study, we present a data construction
pipeline for content-style-stylized image triplets that generates and
automatically cleanses stylized data triplets. Based on this pipeline, we
construct a dataset IMAGStyle, the first large-scale style transfer dataset
containing 210k image triplets, available for the community to explore and
research. Equipped with IMAGStyle, we propose CSGO, a style transfer model
based on end-to-end training, which explicitly decouples content and style
features employing independent feature injection. The unified CSGO implements
image-driven style transfer, text-driven stylized synthesis, and text
editing-driven stylized synthesis. Extensive experiments demonstrate the
effectiveness of our approach in enhancing style control capabilities in image
generation. Additional visualization and access to the source code can be
located on the project page: https://csgo-gen.github.io/.