ChatPaper.aiChatPaper

CSGO: Inhalts-Stil-Komposition in der Text-zu-Bild-Generierung

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
papers.authors: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

papers.abstract

Das Diffusionsmodell hat außergewöhnliche Fähigkeiten bei der kontrollierten Bildgenerierung gezeigt, was das Interesse am Bildstiltransfer weiter gesteigert hat. Bisherige Arbeiten konzentrieren sich hauptsächlich auf das Training von freien Methoden (z. B. Bildinversion) aufgrund der Knappheit spezifischer Daten. In dieser Studie präsentieren wir eine Datenkonstruktionspipeline für Inhalts-Stil-stilisierte Bildtriplets, die stilisierte Datentriplets generiert und automatisch bereinigt. Basierend auf dieser Pipeline erstellen wir den Datensatz IMAGStyle, den ersten groß angelegten Stiltransfer-Datensatz, der 210k Bildtriplets enthält und der Gemeinschaft zur Erkundung und Forschung zur Verfügung steht. Ausgestattet mit IMAGStyle schlagen wir CSGO vor, ein Stiltransfermodell, das auf end-to-end-Training basiert und explizit Inhalts- und Stilmerkmale durch unabhängige Merkmalsinjektion entkoppelt. Das einheitliche CSGO implementiert bildgesteuerten Stiltransfer, textgesteuerte stilisierte Synthese und textbearbeitungsgesteuerte stilisierte Synthese. Umfangreiche Experimente demonstrieren die Effektivität unseres Ansatzes zur Verbesserung der Stilkontrollfähigkeiten in der Bildgenerierung. Zusätzliche Visualisierungen und Zugang zum Quellcode finden Sie auf der Projektseite: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024