MegaStyle: 일관된 텍스트-이미지 스타일 매핑을 통한 다양하고 확장 가능한 스타일 데이터셋 구축
MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping
April 9, 2026
저자: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI
초록
본 논문에서는 스타일 내 일관성을 유지하고 스타일 간 다양성과 높은 품질을 갖춘 대규모 스타일 데이터셋을 구축하는 새로운 확장 가능한 데이터 큐레이션 파이프라인인 MegaStyle을 소개한다. 우리는 주어진 스타일 설명으로부터 동일한 스타일의 이미지를 생성할 수 있는 현재 대규모 생성 모델의 일관된 텍스트-이미지 스타일 매핑 능력을 활용하여 이를 달성하였다. 이를 기반으로 17만 개의 스타일 프롬프트와 40만 개의 콘텐츠 프롬프트로 구성된 다양하고 균형 잡힌 프롬프트 갤러리를 큐레이팅하고, 콘텐츠-스타일 프롬프트 조합을 통해 대규모 스타일 데이터셋인 MegaStyle-1.4M을 생성하였다. MegaStyle-1.4M을 활용하여 표현력 있고 스타일 특화된 표현을 추출하기 위한 스타일 인코더 MegaStyle-Encoder를 미세 조정하는 스타일 지도 대조 학습을 제안하며, FLUX 기반의 스타일 변환 모델인 MegaStyle-FLUX도 학습시켰다. 다양한 실험을 통해 스타일 데이터셋에서 스타일 내 일관성 유지, 스타일 간 다양성, 높은 품질의 중요성과 제안된 MegaStyle-1.4M의 효과성을 입증하였다. 또한 MegaStyle-1.4M으로 학습된 MegaStyle-Encoder와 MegaStyle-FLUX는 신뢰할 수 있는 스타일 유사도 측정과 일반화 가능한 스타일 변환을 제공하여 스타일 변환 연구 커뮤니티에 중요한 기여를 한다. 추가 결과는 프로젝트 웹사이트(https://jeoyal.github.io/MegaStyle/)에서 확인할 수 있다.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.