ChatPaper.aiChatPaper

CSGO: Composizione Contenuto-Stile nella Generazione di Immagini da Testo

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
Autori: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

Abstract

Il modello di diffusione ha dimostrato capacità eccezionali nella generazione controllata di immagini, alimentando ulteriormente l'interesse per il trasferimento di stile nell'immagine. I lavori esistenti si concentrano principalmente su metodi senza addestramento (ad esempio, inversione d'immagine) a causa della scarsità di dati specifici. In questo studio, presentiamo una pipeline di costruzione dati per tripletti di immagini contenuto-stile-stilizzate che genera e pulisce automaticamente tripletti di dati stilizzati. Sulla base di questa pipeline, costruiamo il dataset IMAGStyle, il primo dataset su larga scala per il trasferimento di stile contenente 210k tripletti di immagini, disponibile per la comunità per l'esplorazione e la ricerca. Dotato di IMAGStyle, proponiamo CSGO, un modello di trasferimento di stile basato sull'addestramento end-to-end, che dissocia esplicitamente le caratteristiche di contenuto e stile impiegando l'iniezione di feature indipendenti. L'unificato CSGO implementa il trasferimento di stile guidato da immagine, la sintesi stilizzata guidata da testo e la sintesi stilizzata guidata da modifica testuale. Esperimenti estensivi dimostrano l'efficacia del nostro approccio nel migliorare le capacità di controllo dello stile nella generazione di immagini. Ulteriori visualizzazioni e l'accesso al codice sorgente sono disponibili sulla pagina del progetto: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024