ChatPaper.aiChatPaper

MegaStyle: Construindo um Conjunto de Dados de Estilo Diversificado e Escalável por Meio de Mapeamento Consistente de Estilo Texto-para-Imagem

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

April 9, 2026
Autores: Junyao Gao, Sibo Liu, Jiaxing Li, Yanan Sun, Yuanpeng Tu, Fei Shen, Weidong Zhang, Cairong Zhao, Jun Zhang
cs.AI

Resumo

Neste artigo, apresentamos o MegaStyle, um pipeline novo e escalável de curadoria de dados que constrói um conjunto de dados de estilo consistente intra-estilo, diversificado inter-estilo e de alta qualidade. Alcançamos isso aproveitando a capacidade consistente de mapeamento de estilo texto-imagem dos atuais grandes modelos generativos, que podem gerar imagens no mesmo estilo a partir de uma descrição de estilo fornecida. Com base nesse fundamento, curamos uma galeria diversificada e equilibrada de *prompts* com 170 mil *prompts* de estilo e 400 mil *prompts* de conteúdo, e geramos um conjunto de dados de estilo em larga escala, o MegaStyle-1.4M, através de combinações de *prompts* de conteúdo e estilo. Com o MegaStyle-1.4M, propomos o aprendizado contrastivo supervisionado por estilo para ajustar um codificador de estilo, o MegaStyle-Encoder, para extrair representações expressivas e específicas de estilo, e também treinamos um modelo de transferência de estilo baseado em FLUX, o MegaStyle-FLUX. Experimentos extensivos demonstram a importância de manter a consistência intra-estilo, a diversidade inter-estilo e a alta qualidade para um conjunto de dados de estilo, bem como a eficácia do MegaStyle-1.4M proposto. Além disso, quando treinados no MegaStyle-1.4M, o MegaStyle-Encoder e o MegaStyle-FLUX fornecem uma medição confiável de similaridade de estilo e uma transferência de estilo generalizável, representando uma contribuição significativa para a comunidade de transferência de estilo. Mais resultados estão disponíveis em nosso site do projeto: https://jeoyal.github.io/MegaStyle/.
English
In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.
PDF928April 13, 2026