ChatPaper.aiChatPaper

CSGO : Composition Contenu-Style dans la Génération d'Images par Texte

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
papers.authors: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

papers.abstract

Le modèle de diffusion a démontré des capacités exceptionnelles en génération d'images contrôlée, ce qui a accru l'intérêt pour le transfert de style d'image. Les travaux existants se concentrent principalement sur des méthodes sans entraînement (par exemple, l'inversion d'image) en raison de la rareté des données spécifiques. Dans cette étude, nous présentons un pipeline de construction de données pour des triplets d'images contenu-style-stylisé qui génère et nettoie automatiquement des triplets de données stylisées. Sur la base de ce pipeline, nous construisons IMAGStyle, le premier jeu de données de transfert de style à grande échelle contenant 210 000 triplets d'images, mis à disposition de la communauté pour exploration et recherche. Équipé d'IMAGStyle, nous proposons CSGO, un modèle de transfert de style basé sur un entraînement de bout en bout, qui découple explicitement les caractéristiques de contenu et de style en utilisant une injection de caractéristiques indépendante. Le système unifié CSGO met en œuvre le transfert de style piloté par l'image, la synthèse stylisée pilotée par le texte et la synthèse stylisée pilotée par l'édition textuelle. Des expériences approfondies démontrent l'efficacité de notre approche pour améliorer les capacités de contrôle du style dans la génération d'images. Des visualisations supplémentaires et l'accès au code source sont disponibles sur la page du projet : https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024