CSGO: 텍스트-이미지 생성에서의 콘텐츠-스타일 구성
CSGO: Content-Style Composition in Text-to-Image Generation
August 29, 2024
저자: Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li
cs.AI
초록
디퓨전 모델은 제어된 이미지 생성에서 뛰어난 능력을 보여주며, 이는 이미지 스타일 변환에 대한 관심을 더욱 고조시켰습니다. 기존 연구들은 특정 데이터의 부족으로 인해 주로 프리베이스 방법(예: 이미지 인버전)을 훈련하는 데 초점을 맞추었습니다. 본 연구에서는 콘텐츠-스타일-스타일화된 이미지 트리플렛을 위한 데이터 구축 파이프라인을 제시하며, 이는 스타일화된 데이터 트리플렛을 생성하고 자동으로 정제합니다. 이 파이프라인을 기반으로, 우리는 210k개의 이미지 트리플렛을 포함한 첫 번째 대규모 스타일 변환 데이터셋인 IMAGStyle을 구축하여 커뮤니티가 탐구하고 연구할 수 있도록 제공합니다. IMAGStyle을 활용하여, 우리는 엔드투엔드 훈련 기반의 스타일 변환 모델인 CSGO를 제안합니다. 이 모델은 독립적인 특징 주입을 통해 콘텐츠와 스타일 특징을 명시적으로 분리합니다. 통합된 CSGO는 이미지 기반 스타일 변환, 텍스트 기반 스타일화 합성, 그리고 텍스트 편집 기반 스타일화 합성을 구현합니다. 광범위한 실험을 통해 우리의 접근 방식이 이미지 생성에서 스타일 제어 능력을 향상시키는 데 효과적임을 입증합니다. 추가 시각화 자료와 소스 코드는 프로젝트 페이지(https://csgo-gen.github.io/)에서 확인할 수 있습니다.
English
The diffusion model has shown exceptional capabilities in controlled image
generation, which has further fueled interest in image style transfer. Existing
works mainly focus on training free-based methods (e.g., image inversion) due
to the scarcity of specific data. In this study, we present a data construction
pipeline for content-style-stylized image triplets that generates and
automatically cleanses stylized data triplets. Based on this pipeline, we
construct a dataset IMAGStyle, the first large-scale style transfer dataset
containing 210k image triplets, available for the community to explore and
research. Equipped with IMAGStyle, we propose CSGO, a style transfer model
based on end-to-end training, which explicitly decouples content and style
features employing independent feature injection. The unified CSGO implements
image-driven style transfer, text-driven stylized synthesis, and text
editing-driven stylized synthesis. Extensive experiments demonstrate the
effectiveness of our approach in enhancing style control capabilities in image
generation. Additional visualization and access to the source code can be
located on the project page: https://csgo-gen.github.io/.