MegaStyle: Konstruktion eines vielfältigen und skalierbaren Stildatensatzes durch konsistente Text-zu-Bild-Stilabbildung

Zusammenfassung

In diesem Beitrag stellen wir MegaStyle vor, eine neuartige und skalierbare Datenkuratierungspipeline, die einen stilintern konsistenten, stilübergreifend diversen und hochwertigen Stildatensatz erstellt. Dies erreichen wir durch die Nutzung der konsistenten Text-zu-Bild-Stilabbildungsfähigkeit aktueller großer generativer Modelle, die Bilder im gleichen Stil aus einer gegebenen Stilbeschreibung generieren können. Auf dieser Grundlage kuratieren wir eine diverse und ausgewogene Prompt-Galerie mit 170.000 Stil-Prompts und 400.000 Inhalts-Prompts und generieren über Inhalts-Stil-Prompt-Kombinationen den großangelegten Stildatensatz MegaStyle-1.4M. Mit MegaStyle-1.4M schlagen wir styliüberwachtes kontrastives Lernen vor, um einen Stil-Encoder (MegaStyle-Encoder) für die Extraktion aussagekräftiger, stilspezifischer Repräsentationen zu feinabstimmen, und wir trainieren ebenfalls ein FLUX-basiertes Stiltransfermodell (MegaStyle-FLUX). Umfangreiche Experimente belegen die Bedeutung der Wahrung von Stilkonsistenz innerhalb eines Stils, Stilvielfalt zwischen Stilen und hoher Qualität für Stildatensätze sowie die Wirksamkeit des vorgeschlagenen MegaStyle-1.4M. Darüber hinaus bieten MegaStyle-Encoder und MegaStyle-FLUX, wenn sie auf MegaStyle-1.4M trainiert werden, zuverlässige Stilähnlichkeitsmessung und generalisierbaren Stiltransfer und leisten damit einen bedeutenden Beitrag zur Stiltransfer-Community. Weitere Ergebnisse sind auf unserer Projektwebsite https://jeoyal.github.io/MegaStyle/ verfügbar.

English

In this paper, we introduce MegaStyle, a novel and scalable data curation pipeline that constructs an intra-style consistent, inter-style diverse and high-quality style dataset. We achieve this by leveraging the consistent text-to-image style mapping capability of current large generative models, which can generate images in the same style from a given style description. Building on this foundation, we curate a diverse and balanced prompt gallery with 170K style prompts and 400K content prompts, and generate a large-scale style dataset MegaStyle-1.4M via content-style prompt combinations. With MegaStyle-1.4M, we propose style-supervised contrastive learning to fine-tune a style encoder MegaStyle-Encoder for extracting expressive, style-specific representations, and we also train a FLUX-based style transfer model MegaStyle-FLUX. Extensive experiments demonstrate the importance of maintaining intra-style consistency, inter-style diversity and high-quality for style dataset, as well as the effectiveness of the proposed MegaStyle-1.4M. Moreover, when trained on MegaStyle-1.4M, MegaStyle-Encoder and MegaStyle-FLUX provide reliable style similarity measurement and generalizable style transfer, making a significant contribution to the style transfer community. More results are available at our project website https://jeoyal.github.io/MegaStyle/.

MegaStyle: Konstruktion eines vielfältigen und skalierbaren Stildatensatzes durch konsistente Text-zu-Bild-Stilabbildung

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Zusammenfassung

Support