ChatPaper.aiChatPaper

CSGO: Composição Conteúdo-Estilo na Geração de Imagens a partir de Texto

CSGO: Content-Style Composition in Text-to-Image Generation

August 29, 2024
Autores: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI

Resumo

O modelo de difusão tem demonstrado capacidades excepcionais na geração controlada de imagens, o que tem alimentado ainda mais o interesse na transferência de estilo de imagem. Os trabalhos existentes concentram-se principalmente em métodos baseados em treinamento livre (por exemplo, inversão de imagem) devido à escassez de dados específicos. Neste estudo, apresentamos um pipeline de construção de dados para tripletos de imagens conteúdo-estilo-estilizadas que gera e limpa automaticamente tripletos de dados estilizados. Com base neste pipeline, construímos o conjunto de dados IMAGStyle, o primeiro conjunto de dados de transferência de estilo em larga escala contendo 210 mil tripletos de imagens, disponível para a comunidade explorar e pesquisar. Equipado com o IMAGStyle, propomos o CSGO, um modelo de transferência de estilo baseado em treinamento de ponta a ponta, que desacopla explicitamente características de conteúdo e estilo empregando injeção de características independente. O unificado CSGO implementa transferência de estilo orientada por imagem, síntese estilizada orientada por texto e síntese estilizada orientada por edição textual. Experimentos extensivos demonstram a eficácia da nossa abordagem na melhoria das capacidades de controle de estilo na geração de imagens. Visualizações adicionais e acesso ao código-fonte podem ser encontrados na página do projeto: https://csgo-gen.github.io/.
English
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: https://csgo-gen.github.io/.
PDF187November 14, 2024