ChatPaper.aiChatPaper

MegaStyle: Constructie van een Diverse en Schaalbare Stijldataset via Consistente Tekst-naar-Beeld Stijlmapping

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

April 9, 2026
Auteurs: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI

Samenvatting

In dit artikel introduceren we MegaStyle, een nieuwe en schaalbare data-curatiepijplijn die een stijlgegevensset construeert met een consistente intra-stijl, inter-stijldiversiteit en hoge kwaliteit. We bereiken dit door gebruik te maken van de consistente tekst-naar-beeld stijlmapping-capaciteit van huidige grote generatieve modellen, die afbeeldingen in dezelfde stijl kunnen genereren vanuit een gegeven stijlbeschrijving. Op deze basis cureren we een diverse en gebalanceerde promptgalerij met 170K stijlprompts en 400K inhoudsprompts, en genereren we een grootschalige stijlgegevensset MegaStyle-1.4M via combinaties van inhouds- en stijlprompts. Met MegaStyle-1.4M stellen we stijlgesuperviseerd contrastief leren voor om een stijlencoder, MegaStyle-Encoder, te fine-tunen voor het extraheren van expressieve, stijlspecifieke representaties, en trainen we ook een FLUX-gebaseerd stijloverdrachtsmodel, MegaStyle-FLUX. Uitgebreide experimenten tonen het belang aan van het handhaven van intra-stijlconsistentie, inter-stijldiversiteit en hoge kwaliteit voor een stijlgegevensset, evenals de effectiviteit van de voorgestelde MegaStyle-1.4M. Bovendien bieden MegaStyle-Encoder en MegaStyle-FLUX, wanneer getraind op MegaStyle-1.4M, betrouwbare stijlgelijkheidsmeting en generaliseerbare stijloverdracht, wat een significante bijdrage levert aan de stijloverdrachtsgemeenschap. Meer resultaten zijn beschikbaar op onze projectwebsite https://jeoyal.github.io/MegaStyle/.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.
PDF928April 13, 2026