ChatPaper.aiChatPaper

CSGO: Composición de Contenido-Estilo en la Generación de Imágenes a partir de Texto

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
Autores: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

Resumen

El modelo de difusión ha demostrado capacidades excepcionales en la generación controlada de imágenes, lo que ha impulsado aún más el interés en la transferencia de estilos de imagen. Los trabajos existentes se centran principalmente en métodos basados en entrenamiento libre (por ejemplo, inversión de imágenes) debido a la escasez de datos específicos. En este estudio, presentamos una canalización de construcción de datos para tripletas de imágenes de contenido-estilo-estilizado que genera y limpia automáticamente tripletas de datos estilizados. Basándonos en esta canalización, construimos el conjunto de datos IMAGStyle, el primer conjunto de datos a gran escala para transferencia de estilos que contiene 210k tripletas de imágenes, disponible para que la comunidad lo explore e investigue. Equipados con IMAGStyle, proponemos CSGO, un modelo de transferencia de estilos basado en entrenamiento de extremo a extremo, que desacopla explícitamente las características de contenido y estilo empleando inyección de características independiente. El CSGO unificado implementa transferencia de estilos impulsada por imágenes, síntesis estilizada impulsada por texto y síntesis estilizada impulsada por edición de texto. Experimentos extensivos demuestran la efectividad de nuestro enfoque para mejorar las capacidades de control de estilo en la generación de imágenes. Visualizaciones adicionales y acceso al código fuente se pueden encontrar en la página del proyecto: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024