CSGO: テキストから画像生成におけるコンテンツとスタイルの構成
CSGO: Content-Style Composition in Text-to-Image Generation
August 29, 2024
著者: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI
要旨
拡散モデルは制御された画像生成において卓越した能力を示しており、これが画像スタイル転送への関心をさらに高めています。既存の研究では、特定のデータの不足から、主にフリーベースの手法(例:画像反転)の訓練に焦点を当てています。本研究では、コンテンツ-スタイル-スタイル化画像のトリプレットを生成し、自動的にクリーニングするデータ構築パイプラインを提示します。このパイプラインに基づき、コミュニティが探索・研究するための最初の大規模スタイル転送データセットであるIMAGStyleを構築しました。IMAGStyleを活用し、エンドツーエンドの訓練に基づくスタイル転送モデルCSGOを提案します。CSGOは、独立した特徴注入を用いてコンテンツとスタイルの特徴を明示的に分離します。統一されたCSGOは、画像駆動のスタイル転送、テキスト駆動のスタイル化合成、およびテキスト編集駆動のスタイル化合成を実装します。広範な実験により、画像生成におけるスタイル制御能力の向上における我々のアプローチの有効性が実証されました。追加の視覚化とソースコードへのアクセスは、プロジェクトページ(https://csgo-gen.github.io/)で確認できます。
English
The diffusion model has shown exceptional capabilities in controlled image
generation, which has further fueled interest in image style transfer. Existing
works mainly focus on training free-based methods (e.g., image inversion) due
to the scarcity of specific data. In this study, we present a data construction
pipeline for content-style-stylized image triplets that generates and
automatically cleanses stylized data triplets. Based on this pipeline, we
construct a dataset IMAGStyle, the first large-scale style transfer dataset
containing 210k image triplets, available for the community to explore and
research. Equipped with IMAGStyle, we propose CSGO, a style transfer model
based on end-to-end training, which explicitly decouples content and style
features employing independent feature injection. The unified CSGO implements
image-driven style transfer, text-driven stylized synthesis, and text
editing-driven stylized synthesis. Extensive experiments demonstrate the
effectiveness of our approach in enhancing style control capabilities in image
generation. Additional visualization and access to the source code can be
located on the project page: https://csgo-gen.github.io/.