MegaStyle : Construction d'un ensemble de données de style diversifié et extensible via un mapping cohérent texte-image du style
MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping
April 9, 2026
Auteurs: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI
Résumé
Dans cet article, nous présentons MegaStyle, un nouveau pipeline d'organisation de données évolutif qui permet de constituer un jeu de données stylistiques de haute qualité, présentant une cohérence intra-style et une diversité inter-style. Nous y parvenons en exploitant la capacité de mappage cohérent texte-image des grands modèles génératifs actuels, qui peuvent générer des images dans un même style à partir d'une description stylistique donnée. Sur cette base, nous organisons une galerie d'invites diversifiée et équilibrée comprenant 170 000 invites de style et 400 000 invites de contenu, et générons un jeu de données stylistiques à grande échelle, MegaStyle-1.4M, via des combinaisons d'invites de contenu et de style. Avec MegaStyle-1.4M, nous proposons un apprentissage par contraste supervisé par le style pour affiner un encodeur de style, MegaStyle-Encoder, afin d'extraire des représentations expressives et spécifiques au style, et nous entraînons également un modèle de transfert de style basé sur FLUX, MegaStyle-FLUX. Des expériences approfondies démontrent l'importance de maintenir une cohérence intra-style, une diversité inter-style et une haute qualité pour un jeu de données stylistiques, ainsi que l'efficacité du jeu de données MegaStyle-1.4M proposé. De plus, lorsqu'ils sont entraînés sur MegaStyle-1.4M, MegaStyle-Encoder et MegaStyle-FLUX fournissent une mesure fiable de la similarité stylistique et un transfert de style généralisable, contribuant ainsi significativement à la communauté du transfert de style. D'autres résultats sont disponibles sur notre site web dédié : https://jeoyal.github.io/MegaStyle/.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.