CSGO : Composition Contenu-Style dans la Génération d'Images par Texte
CSGO: Content-Style Composition in Text-to-Image Generation
August 29, 2024
papers.authors: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI
papers.abstract
Le modèle de diffusion a démontré des capacités exceptionnelles en génération d'images contrôlée, ce qui a accru l'intérêt pour le transfert de style d'image. Les travaux existants se concentrent principalement sur des méthodes sans entraînement (par exemple, l'inversion d'image) en raison de la rareté des données spécifiques. Dans cette étude, nous présentons un pipeline de construction de données pour des triplets d'images contenu-style-stylisé qui génère et nettoie automatiquement des triplets de données stylisées. Sur la base de ce pipeline, nous construisons IMAGStyle, le premier jeu de données de transfert de style à grande échelle contenant 210 000 triplets d'images, mis à disposition de la communauté pour exploration et recherche. Équipé d'IMAGStyle, nous proposons CSGO, un modèle de transfert de style basé sur un entraînement de bout en bout, qui découple explicitement les caractéristiques de contenu et de style en utilisant une injection de caractéristiques indépendante. Le système unifié CSGO met en œuvre le transfert de style piloté par l'image, la synthèse stylisée pilotée par le texte et la synthèse stylisée pilotée par l'édition textuelle. Des expériences approfondies démontrent l'efficacité de notre approche pour améliorer les capacités de contrôle du style dans la génération d'images. Des visualisations supplémentaires et l'accès au code source sont disponibles sur la page du projet : https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image
generation, which has further fueled interest in image style transfer. Existing
works mainly focus on training free-based methods (e.g., image inversion) due
to the scarcity of specific data. In this study, we present a data construction
pipeline for content-style-stylized image triplets that generates and
automatically cleanses stylized data triplets. Based on this pipeline, we
construct a dataset IMAGStyle, the first large-scale style transfer dataset
containing 210k image triplets, available for the community to explore and
research. Equipped with IMAGStyle, we propose CSGO, a style transfer model
based on end-to-end training, which explicitly decouples content and style
features employing independent feature injection. The unified CSGO implements
image-driven style transfer, text-driven stylized synthesis, and text
editing-driven stylized synthesis. Extensive experiments demonstrate the
effectiveness of our approach in enhancing style control capabilities in image
generation. Additional visualization and access to the source code can be
located on the project page: https://csgo-gen.github.io/.