ChatPaper.aiChatPaper

CSGO: Content-Style Compositie in Tekst-naar-Beeld Generatie

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
Auteurs: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

Samenvatting

Het diffusiemodel heeft uitzonderlijke capaciteiten getoond bij gecontroleerde beeldgeneratie, wat de interesse in beeldstijloverdracht verder heeft aangewakkerd. Bestaande onderzoeken richten zich voornamelijk op trainingsvrije methoden (zoals beeldinversie) vanwege de schaarste aan specifieke data. In deze studie presenteren we een dataconstructiepijplijn voor inhoud-stijl-gestileerde beeldtriplets die gestileerde datatriplets genereert en automatisch zuivert. Op basis van deze pijplijn construeren we IMAGStyle, de eerste grootschalige stijloverdrachtsdataset met 210k beeldtriplets, beschikbaar voor de onderzoeksgemeenschap. Uitgerust met IMAGStyle stellen we CSGO voor, een stijloverdrachtsmodel gebaseerd op end-to-end training, dat expliciet inhouds- en stijlkenmerken ontkoppelt door onafhankelijke kenmerkinjectie te gebruiken. De verenigde CSGO implementeert beeldgestuurde stijloverdracht, tekstgestuurde gestileerde synthese en tekstbewerkingsgestuurde gestileerde synthese. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan bij het verbeteren van stijlcontrolecapaciteiten in beeldgeneratie. Aanvullende visualisaties en toegang tot de broncode zijn te vinden op de projectpagina: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024