MegaStyle: Costruzione di un Dataset di Stili Diversificato e Scalabile tramite Mappatura di Stile da Testo a Immagine Coerente
MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping
April 9, 2026
Autori: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI
Abstract
In questo articolo presentiamo MegaStyle, una pipeline innovativa e scalabile per la cura dei dati che costruisce un dataset di stili di alta qualità, con coerenza intra-stile e diversità inter-stile. Raggiungiamo questo obiettivo sfruttando la capacità di mappatura stile-testo coerente degli attuali modelli generativi di grandi dimensioni, che possono generare immagini nello stesso stile a partire da una descrizione stilistica data. Sulla base di questo fondamento, curiamo una galleria di prompt diversificata e bilanciata con 170K prompt di stile e 400K prompt di contenuto, e generiamo un dataset di stili su larga scala, MegaStyle-1.4M, tramite combinazioni di prompt contenuto-stile. Con MegaStyle-1.4M, proponiamo un apprendimento contrastivo supervisionato dallo stile per mettere a punto un codificatore di stile, MegaStyle-Encoder, per estrarre rappresentazioni espressive e specifiche dello stile, e alleniamo anche un modello di trasferimento stilistico basato su FLUX, MegaStyle-FLUX. Esperimenti estesi dimostrano l'importanza di mantenere coerenza intra-stile, diversità inter-stile e alta qualità per un dataset di stili, nonché l'efficacia del proposto MegaStyle-1.4M. Inoltre, quando addestrati su MegaStyle-1.4M, MegaStyle-Encoder e MegaStyle-FLUX forniscono una misurazione affidabile della similarità stilistica e un trasferimento stilistico generalizzabile, apportando un contributo significativo alla comunità del trasferimento stilistico. Ulteriori risultati sono disponibili sul nostro sito web del progetto https://jeoyal.github.io/MegaStyle/.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.