MegaStyle: Construcción de un Conjunto de Datos de Estilo Diverso y Escalable mediante Mapeo Estilístico Consistente de Texto a Imagen
MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping
April 9, 2026
Autores: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI
Resumen
En este artículo presentamos MegaStyle, una novedosa y escalable canalización de curación de datos que construye un conjunto de datos de estilos de alta calidad, con consistencia intra-estilo y diversidad inter-estilos. Logramos esto aprovechando la capacidad consistente de mapeo de texto a imagen de los modelos generativos grandes actuales, los cuales pueden generar imágenes en el mismo estilo a partir de una descripción de estilo dada. Sobre esta base, seleccionamos una galería de prompts diversa y equilibrada con 170K prompts de estilo y 400K prompts de contenido, y generamos un conjunto de datos de estilos a gran escala, MegaStyle-1.4M, mediante combinaciones de prompts de contenido y estilo. Con MegaStyle-1.4M, proponemos un aprendizaje contrastivo supervisado por estilo para ajustar un codificador de estilos, MegaStyle-Encoder, con el fin de extraer representaciones expresivas y específicas del estilo, y también entrenamos un modelo de transferencia de estilo basado en FLUX, MegaStyle-FLUX. Experimentos exhaustivos demuestran la importancia de mantener la consistencia intra-estilo, la diversidad inter-estilos y la alta calidad para un conjunto de datos de estilos, así como la efectividad del MegaStyle-1.4M propuesto. Además, cuando se entrenan con MegaStyle-1.4M, MegaStyle-Encoder y MegaStyle-FLUX proporcionan una medición confiable de similitud de estilos y una transferencia de estilo generalizable, realizando una contribución significativa a la comunidad de transferencia de estilos. Más resultados están disponibles en nuestro sitio web del proyecto https://jeoyal.github.io/MegaStyle/.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.